KR102324221B1 - 이미지 문서의 비정형 레이아웃 인식 방법 - Google Patents
이미지 문서의 비정형 레이아웃 인식 방법 Download PDFInfo
- Publication number
- KR102324221B1 KR102324221B1 KR1020210041869A KR20210041869A KR102324221B1 KR 102324221 B1 KR102324221 B1 KR 102324221B1 KR 1020210041869 A KR1020210041869 A KR 1020210041869A KR 20210041869 A KR20210041869 A KR 20210041869A KR 102324221 B1 KR102324221 B1 KR 102324221B1
- Authority
- KR
- South Korea
- Prior art keywords
- segment
- group
- layout
- area
- document
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000003287 optical effect Effects 0.000 title abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 68
- 238000012545 processing Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000032823 cell division Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 19
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010422 painting Methods 0.000 description 2
- 241000917703 Leia Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G06K9/00456—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/182—Extraction of features or characteristics of the image by coding the contour of the pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G06K2209/01—
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Abstract
본 발명은, 이미지 문서의 비정형 레이아웃 인식 방법에 관한 것으로, 특히 비정형으로 입력되는 이미지 문서에서 다양한 형태의 문서 정보를 광학적으로 인식하여 분석하는 광학적 폼 인식기법(OFD;Optical Form Recognition)과 관련된 이미지 문서의 비정형 레이아웃 인식 방법에 관한 것이다. 본 발명은, 문서를 분석하기 위한 기초 데이터를 생성하는 세그먼트 분석 단계; 상기 세그먼트의 분석 대상 영역에서 표, 박스, 도형, 상하 문단 또는 좌우 문단을 독립적으로 분리 가능한 단위영역을 도출하며 페이지 전체 영역 분석과 기 설정된 세부 영역 분석을 수행하여 상기 문서의 배치 상태 또는 단락을 분석하는 레이아웃 분석 단계; 및
상기 레이아웃 분석 결과를 통해 상기 단위 영역을 문단, 표, 박스 또는 도형 중 적어도 어느 하나로 분류하고 분류된 단위 영역에 따라 문자의 위치, 행수, 회전각, 셀 구분선 통계 중 적어도 어느 하나를 이용하여 세부적으로 문자를 인식하는 세부 분석 단계를 포함하는 이미지 문서의 비정형 레이아웃 인식 방법을 제공한다.
상기 레이아웃 분석 결과를 통해 상기 단위 영역을 문단, 표, 박스 또는 도형 중 적어도 어느 하나로 분류하고 분류된 단위 영역에 따라 문자의 위치, 행수, 회전각, 셀 구분선 통계 중 적어도 어느 하나를 이용하여 세부적으로 문자를 인식하는 세부 분석 단계를 포함하는 이미지 문서의 비정형 레이아웃 인식 방법을 제공한다.
Description
본 발명은 이미지 문서의 비정형 레이아웃 인식 방법에 관한 것으로, 특히 비정형으로 입력되는 이미지 문서에서 다양한 형태의 문서 정보를 광학적으로 인식하여 분석하는 광학적 폼 인식기법(OFD;Optical Form Recognition)과 관련된 이미지 문서의 비정형 레이아웃 인식 방법에 관한 것이다.
오늘날 문서나 서류들을 편리하게 관리하기 위해, 종이의 형태로 관리되던 문서나 서류들이 전자 문서화되고 있다. 종이로 되어 있는 서류를 전자 문서화하기 위해서 사람이 해당 서류를 보고 직접 수작업으로 일일이 입력하여야 하기 때문에 많은 시간과 비용이 소비되어 왔다. 이에 따라, 문서를 스캔하고, 스캔한 문서 이미지에서 OCR(Optical Character Recognition)을 이용해 문자를 추출하는 방식을 통해 종이 형태의 문서를 전자 문서화하고 있다.
이와 관련, 종래의 일본 공개특허 JP2007-011529에는 문서 이미지에서 OCR을 이용하여 문자를 추출함에 있어, 형태를 알고 있는 정형화된 문서를 서식 기반으로 해당 위치에 있는 글자를 인식하여 읽어내는 방식을 개시하고 있다. 다만, 종래의 기술은 정형화된 문서에서 한정되는 것으로, 문서의 형태나 종류가 일정하지 않은 비정형화된 문서에서 사용자가 원하는 특정 정보를 추출하는 데 있어, 복수의 문서 간 공통되지 않은 식별위치 또는 유사도가 높은 숫자와 문자 간에 인식 오류가 발생할 우려가 존재하고, 사진 및 그림과 같은 형상은 정보화가 불가능한 문제점이 있다.
본 발명은 상술한 숫자와 문자 간에 인식 오류나 사진 및 그림과 같은 형상의 정보화를 수행하는 과정에서 오류를 최소화하고 이미지 문서(오프라인 문서)에서 최대한 정보화가 가능한 온라인 문서화를 수행하는 광학적 폼 인식기법(OFD;Optical Form Recognition)과 관련된 이미지 문서의 비정형 레이아웃 인식 방법을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위하여 본 발명은, 전처리를 수행한 세그먼트를 통해 상기 세그먼트의 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 통계내어 각 세그먼트의 상관 관계를 분석하고 인식 가능한 세그먼트를 그룹화하여 상기 문서를 분석하기 위한 기초 데이터를 생성하는 세그먼트 분석 단계; 상기 세그먼트의 분석 대상 영역에서 표, 박스, 도형, 상하 문단 또는 좌우 문단을 독립적으로 분리 가능한 단위영역을 도출하며 페이지 전체 영역 분석과 기 설정된 세부 영역 분석을 수행하여 상기 문서의 배치 상태 또는 단락을 분석하는 레이아웃 분석 단계; 및 상기 레이아웃 분석 결과를 통해 상기 단위 영역을 문단, 표, 박스 또는 도형 중 적어도 어느 하나로 분류하고 분류된 단위 영역에 따라 문자의 위치, 행수, 회전각, 셀 구분선 통계 중 적어도 어느 하나를 이용하여 세부적으로 문자를 인식하는 세부 분석 단계를 포함하는 이미지 문서의 비정형 레이아웃 인식 방법을 제공한다.
실시 예에 따라 상기 세그먼트 분석 단계는, 상기 세그먼트의 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 평균값, 최대값, 최소값 또는 중간값으로 통계처리하는 단계; 상기 통계처리 된 세그먼트의 상관 관계를 통해 기 설정된 기준에 따라 각 세그먼트를 그룹화하는 단계; 및 그룹 세그먼트에 대해 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 평균값, 최대값, 최소값 또는 중간값으로 그룹 통계처리하는 단계를 더 포함할 수 있다.
실시 예에 따라 상기 세그먼트 분석 단계는, 상기 그룹 세그먼트와 그룹 세그먼트 통계 정보에 의거하여 상기 그룹 세그먼트의 속성을 문자 그룹과 비 문자 그룹으로 부여하는 단계를 더 포함할 수 있다.
실시 예에 따라 상기 레이아웃 분석 단계는, 상기 세그먼트의 분석 대상 영역에서 독립적으로 분리 가능한 단위영역을 도출하는 단계; 상기 단위 영역 간 분리된 영역이 그룹 세그먼트 크기의 평균값의 2배 이상인지 판단하여 독립된 레이아웃으로 분리하는 단계를 더 포함할 수 있다.
실시 예에 따라 상기 세부 분석 단계는, 상기 레이아웃 내부의 단위 영역에 포함된 세그먼트 중 처음 시작하는 대표 세그먼트가 문자 세그먼트인지 여부를 판단하는 단계; 및 상기 대표 세그먼트가 상기 문자 세그먼트인지 여부에 따라 문자 그룹 또는 비 문자 그룹의 레이아웃으로 속성을 정의하는 단계를 더 포함할 수 있다.
실시 예에 따라 상기 비 문자 그룹은, 문단, 표, 박스 또는 도형 그룹 중 적어도 어느 하나의 속성으로 정의될 수 있다.
또한 본 발명은 상술한 어느 한 항의 방법을 프로그램으로 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체를 제공한다.
전술한 바와 같은 구성을 갖는 본 발명에 따르면, 문서 내의 형상을 온라인 문서로 변환할 경우 오류를 최소화할 수 있는 이점이 있다.
또한 본 발명은, 문서 이미지에서 각 세그먼트에 따라 레이아웃을 분석하기 때문에 광학적 인식률을 효율적으로 높일 수 있는 이점이 있다.
도 1은 본 발명의 전체 순서도.
도 2는 종래의 전처리 전 오프라인 문서 이미지.
도 3은 종래의 전처리 진행 중 이미지.
도 4는 본 발명의 실시 예에 따른 세그먼트분석을 위한 그룹 세그먼트의 모습.
도 5는 본 발명의 실시 예에 따라 그룹 세그먼트에서 세그먼트 속성을 판정하는 모습.
도 6은 본 발명의 실시 예에 따른 문단 배치에서의 레이아웃분석 모습.
도 7은 본 발명의 실시 예에 따른 문단 배치에서 레이아웃의 좌우를 분석하는 모습.
도 8은 본 발명의 실시 예에 따른 도 6 및 도 7에서 분석된 레이아수의 결과 모습.
도 9는 본 발명의 실시 예에 따른 문단에서 행수 및 쓰기방향을 추론하는 문단 분석의 모습.
도 10은 본 발명의 실시 예에 따른 문단에서 곡률 형상에서의 단에서 행 영역 중첩을 분석하는 모습.
도 11은 본 발명의 다른 실시 예에 따라 레이블 및 데이터 쌍의 구조를 검토하는 문단 분석의 모습.
도 12는 본 발명의 실시 예에 따라 표 세그먼트에서 특징점을 분석하는 모습.
도 2는 종래의 전처리 전 오프라인 문서 이미지.
도 3은 종래의 전처리 진행 중 이미지.
도 4는 본 발명의 실시 예에 따른 세그먼트분석을 위한 그룹 세그먼트의 모습.
도 5는 본 발명의 실시 예에 따라 그룹 세그먼트에서 세그먼트 속성을 판정하는 모습.
도 6은 본 발명의 실시 예에 따른 문단 배치에서의 레이아웃분석 모습.
도 7은 본 발명의 실시 예에 따른 문단 배치에서 레이아웃의 좌우를 분석하는 모습.
도 8은 본 발명의 실시 예에 따른 도 6 및 도 7에서 분석된 레이아수의 결과 모습.
도 9는 본 발명의 실시 예에 따른 문단에서 행수 및 쓰기방향을 추론하는 문단 분석의 모습.
도 10은 본 발명의 실시 예에 따른 문단에서 곡률 형상에서의 단에서 행 영역 중첩을 분석하는 모습.
도 11은 본 발명의 다른 실시 예에 따라 레이블 및 데이터 쌍의 구조를 검토하는 문단 분석의 모습.
도 12는 본 발명의 실시 예에 따라 표 세그먼트에서 특징점을 분석하는 모습.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 명세서 전체에서 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, "그 중간에 다른 구성을 사이에 두고" 연결되어 있는 경우도 포함한다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 본 발명의 전체 순서도를 나타낸다.
도 1을 참조하면, 본 발명은 입력된 문서의 각 영역을 구분하여 이진화, 중심선 추출 또는 복수의 세그먼트 추출 과정을 포함하는 전처리를 통해 세그먼트 분석(S10), 레이아웃 분석(S20) 및 문단, 표, 박스 또는 도형을 분석하는 세부 분석 단계(S30)를 포함할 수 있다.
세그먼트 분석 단계(S10)는, 상기 세그먼트의 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 통계내어 각 세그먼트의 상관 관계를 분석하고 인식 가능한 세그먼트를 그룹화하여 상기 문서를 분석하기 위한 기초 데이터를 생성하는 과정이다.
구체적으로 세그먼트 분석 단계(S10)는, 통계, 그룹화, 그룹 세그먼트 통계 및 세그먼트 속성 판정을 포함하며, 이미지 문서에서 다양한 형상의 그림을 컴퓨터를 활용하여 정보화 가능한 형상과 불가능한 형상을 구분하기 위해 영역을 분리하여 검토하는 과정이다.
레이아웃 분석 단계(S20)는, 세그먼트의 분석 대상 영역에서 표, 박스, 도형, 상하 문단 또는 좌우 문단을 독립적으로 분리 가능한 단위영역을 도출하며 페이지 전체 영역 분석과 기 설정된 세부 영역 분석을 수행하여 상기 문서의 배치 상태 또는 단락을 분석하는 과정이다.
레이아웃 분석 단계(S20)는, 영역 분석과 속성 분석을 포함하며, 세그먼트 분석 단계(S10)에서 수행된 속성을 바탕으로 구체적으로 독립적으로 분리 가능한 단위영역을 도출하며, 페이지 전체 영역의 분석과 세부 영역 분석을 수행하는 과정이다.
세부 분석 단계(S30)는, 레이아웃 분석 결과를 통해 상기 단위 영역을 문단, 표, 박스 또는 도형 중 적어도 어느 하나로 분류하고 분류된 단위 영역에 따라 문자의 위치, 행수, 회전각, 셀 구분선 통계 중 적어도 어느 하나를 이용하여 세부적으로 문자를 인식하는 과정이다.
세부 분석 단계(S30)는, 레이아웃에서 분석된 각 영역이 문단, 표, 박스, 도형인지 여부에 따라 각각 세부적으로 분석하는 과정으로, 그 과정에서 상술한 레이아웃과 달리 내부의 셀 레이아웃이라는 용어로 정의된 세부 구성을 분석할 수 있다.
이 과정에서 각 레이아웃의 분석 형태에 따라 세부 구성 분석하는 절차가 달라지며, 그 과정에서 위치추적, 행수, 회전각, 셀 구분선 통계, 셀 레이아웃 분석 등의 절차과정을 포함하여 구체적으로 수행될 수 있다.
이와 관련 종래의 전처리 과정을 간략히 아래 도 2 및 도 3을 통해 살펴보고, 본 발명의 세그먼트 분석, 레이아웃 분석 및 세부 분석에 대한 각 절차에 대해 설명한다.
도 2는 종래의 전처리 전 오프라인 문서 이미지를 나타낸다.
도 2를 참조하면, 이미지 문서는 문자 형상, 그림 및 사진 등의 형상, 도형 형상, 또는 정보의 함축적 인지를 도와주기 위한 표, 박스 형상 등 다양한 형상의 그림으로 구성될 수 있다.
한 개의 이미지 문서의 구성 형상은 컴퓨터를 활용하여 정보화(코드화 하여 재생산 가능성이 있는 형상) 가능한 형상과 정보화가 불가능한 형상이 혼재되어 있을 수 있다.
도 3은 종래의 전처리 진행 중 이미지를 나타낸다.
도 3을 참조하면, 전처리 과정에서 이진화(a), 중심선 세선화(b) 및 세그먼트 추출(c) 과정을 나타낸다.
광학 인식을 위해 세그먼트가 필요하고, 세그먼트 추출을 위해 전처리 과정을 진행한다.
정보화 가능여부는 곧 광학 인식 가능 여부를 의미하며 이는 세그먼트 들의 가공 방법을 통해 구체화 될 수 있다.
광학 인식 가능 요소로 문단(장)의 형상들은 OCR 기능을 이용하여 문자 형상에 대하여 정보화(코드화)하는 기능은 널리 적용되어 사용되고 있다. 표/박스의 형상은 문자 부분은 OCR 기능으로 정보화가 적용되는 부분이 있을 수 있다.
다만, 표의 셀의 상태 와 셀 내부의 문장(행)의 문자배치 맞춤 및 문구(장) 길이에 의하여 인접 셀과 구분이 되지 않는 경우가 발생한다. 표/박스의 형상에서 셀의 상태 (셀 개수, 행 및 렬, 병합 여부 등)을 판별하는 기능이 OCR에는 없다.
즉, 표/박스의 구분선(구획선)이 노이즈 등에 의하여 불분명할 경우 영역을 판정하는 기능이 OCR에는 없고 표를 처리하기 위한 방법론이 없으므로 종래에는 사전(事前)에 인지 영역을 Marking하는 DB화 비용의 문제가 있으며, 처리대상 문서 종류의 제한이 있다.
즉, 구분선의 형태 (가로선, 세로선)를 인지하여 영역을 구분하는 기능이 OCR에는 없기에 다양한 표를 처리하기 위한 방법론이 필요로 하다.
사진 및 그림과 같은 형상은 정보화가 불가능한 형상에 대하여서는 위치 정보, 크기 정보를 추출할 수 필요성이 있다.
예를 들어, 동일한 문서 형상을 온라인 문서로 변환 할 경우에 원본가 유사한 문서로 만드는데 있어 위치, 크기 등의 정보가 필요할 수 있다. 또한 문장 부분에 직인(도장)이 OverWrite( Over-Print) 되어 있는 경우, 직인형상과 문자 정보를 분리하여 문장의 문자를 최대한 인지 처리할 필요가 있으며, 직인(도장)의 형상을 별도로 추출 할 필요가 있다.
도 4는 본 발명의 실시 예에 따른 세그먼트 분석을 위한 그룹 세그먼트의 모습을 나타낸다.
도 4를 참조하면, 대표 세그먼트와 서브 세그먼트로 구성될 수 있고, 그림이나 표, 직인 등도 하나의 세그먼트로 분류한다.
세그먼트 분석 단계(S10)는, 상기 세그먼트의 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 평균값, 최대값, 최소값 또는 중간값으로 통계처리하는 단계; 상기 통계처리 된 세그먼트의 상관 관계를 통해 기 설정된 기준에 따라 각 세그먼트를 그룹화하는 단계; 및 그룹 세그먼트에 대해 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 평균값, 최대값, 최소값 또는 중간값으로 그룹 통계처리하는 단계를 더 포함할 수 있다.
위와 같이 통계처리하는 단계를 거친 후, 상기 추출된 세그먼트의 영역간 세그먼트 관계성을 검토하여 1차로 세그먼트를 그룹화 한다. 대표 세그먼트에 서브세그먼트의 그룹 정보를 업데이트하고, 그룹 세그먼트 개수 및 영역 크기 최소값, 최대값, 중간값의 최신 정보를 유지한다.
세그먼트를 그룹화하는 단계는, 1차 세그먼트 그룹들을 우측 드롭다운한 결과에 의거하여 2차로 세그먼트를 그룹화 과정을 포함할 수 있다. 문자로 추정되는 그룹 세그먼트가 동일 행의 상하로 배치된 형상을 단일 그룹으로 병합하는 효과를 얻을 수 있어, 그룹의 판정의 복잡성을 제거할 수 있다.
실시 예에 따라,“으, 므, 르…”등등 상하로 배치되는 형상 세그먼트를 한 개의 세그먼트그룹으로 병합하여 단일화 할 수 있고, 동일 행에서 병합되는 상하거리를 최신으로 유지하여 그룹간 좌우 거리차이가 “병합되는 상하거리” 미만이면 좌우 관계의 세그먼트를 병합할 수 있다.
실시 예에 따라, “이, 미, 비…” 등등 좌우 로 배치되는 형상 세그먼트를 한 개의 세그먼트그룹으로 병합하여 단일화하고, 표, 박스 또는 직인의 경우에는 최외곽 세그먼트의 내부에 포함되는 세그먼트 그룹으로 단일화할 수 있다.
또한 세그먼트에 대한 통계처리하는 단계와 동일하게 그룹 세그먼트에 대해서도 동일하게 통계처리를 수행할 수 있다.
도 5는 본 발명의 실시 예에 따라 그룹 세그먼트에서 세그먼트 속성을 판정하는 모습을 나타낸다.
도 5를 참조하면, 인식 가능그룹과 불가능 그룹으로 세그먼트를 분류하고, 세그먼트 속성은 인식 가능 그룹 내에서 각 세그먼트의 속성을 분류하는 과정을 포함할 수 있다.
세그먼트 분석 단계(S10)는, 상기 그룹 세그먼트와 그룹 세그먼트 통계 정보에 의거하여 상기 그룹 세그먼트의 속성을 문자 그룹과 비 문자 그룹으로 부여하는 단계를 더 포함하고, 상기 비 문자 그룹은, 문단, 표, 박스 또는 도형 그룹 중 적어도 어느 하나의 속성으로 정의될 수 있다.
세그먼트 속성은, 세그먼트 그룹화와 그룹 세그먼트 통계의 정보에 의거하여 속성이 부여될 수 있다. 세그먼트는 1차 문자 그룹과 집단그룹으로 분류한다.
세부 분석 단계(S30)는, 상기 레이아웃 내부의 단위 영역에 포함된 세그먼트 중 처음 시작하는 대표 세그먼트가 문자 세그먼트인지 여부를 판단하는 단계; 및 상기 대표 세그먼트가 상기 문자 세그먼트인지 여부에 따라 문자 그룹 또는 비 문자 그룹의 레이아웃으로 속성을 정의하는 단계를 더 포함할 수 있다.
실시 예에 따라 문자그룹은 병합 개수가 6개 미만 및 평균크기의 70%~130%를 의미하고, 집단 그룹은 문자 그룹이 아닌 표/박스/인식불가 그룹 등 모든 그룹을 포함할 수 있다.
집단 그룹의 세부 속성을 판정하는 과정은 특징점을 분석하는 과정에 의해 그룹 세그먼트 개수 1개이며 넓이 혹은 높이가 평균크기의 2.5배 이상인 도형 그룹, 평균크기 2배 미만, 특징 행렬의 거리가 평균크기 1배 미만인 인식불가 그룹, 특징 행렬의 개수가 각각 2개이며, 행렬의 거리가 평균크기 1배 이상인 박스 그룹, 특징 행렬의 개수가 각각 2개 이상 이며, 행렬의 거리가 평균크기 1배 이상인 표 그룹으로 나눌 수 있다.
도 6은 본 발명의 실시 예에 따른 문단 배치에서의 레이아웃분석 모습을 나타낸다.
도 6을 참조하면, 분석 대상 영역에서 독립적으로 분리 가능한 단위영역을 도출할 수 있다.
레이아웃 분석 단계(S20)는, 상기 세그먼트의 분석 대상 영역에서 독립적으로 분리 가능한 단위영역을 도출하는 단계; 및 상기 단위 영역 간 분리된 영역이 그룹 세그먼트 크기의 평균값의 2배 이상인지 판단하여 독립된 레이아웃으로 분리하는 단계를 포함한다.
단위영역을 도출하여 좌측과 우측 상측과 하측으로 레이아웃을 1차적으로 구분할 수 있다. 페이지 전체 영역의 분석과 표의 특정 셀 영역은 새로운 표 혹은 여러 개의 문단이 포함된 세부 영역 분석을 수행할 수 있다.
도 7은 본 발명의 실시 예에 따른 문단 배치에서 레이아웃의 좌우를 분석하는 모습을 나타낸다.
도 7을 참조하면, 도 6에서 분석한 상측 배치 문단에서 좌측과 우측을 분리하는 과정을 보여준다. 이는 문단 영역사이의 간격으로 판별할 수 있다. 레이아웃 영역의 분석은,먼저 Layout 영역 분리는 표/박스/도형 그룹을 기준으로 상하 좌우에 문단이 있을 경우 문단의 영역을 독립적인 영역으로 분리 한다.
도 8은 본 발명의 실시 예에 따른 도 6 및 도 7에서 분석된 레이아웃의 결과 모습을 나타낸다.
도 8을 참조하면, 레이아웃이 문단 영역과 표 영역으로 나눠진 모습을 나타낸다.
레이아웃 속성 분석은 레이아웃 영역 분석에서 도출된 문단, 박스, 표, 도형 속성을 가지며, 각각의 레이아웃 영역을 분석하여 문단 영역은 대표세그먼트가 문자 세그먼트(일부 인식 불가 세그먼트)로 구성된 영역으로 문자 속성을 부여한다.
표/박스 영역은 대표세그먼트가 문자가 아닌 다른 세그먼트로 구성된 영역으로 집단 영역으로 (표/박스)분석단계에서 정확한 속성을 부여하며, 여기서는 집단 그룹의 속성을 가진다. 도형 영역은 도형세그먼트가 대표 세그먼트로 구성되며, 도형 속성을 부여한다.
문단 영역은 위치, 레이아웃의 크기, 행수, 각 행 별 기울기, 각 행의 레이블과 데이터의 형상의 정보를 가지고, 표 영역은 위치 및 레이아웃의 크기 정보를 가진다. 박스 영역은 위치 및 레이아웃의 크기 정보를 가지며 도형 영역은 위치 및 레이아웃의 크기, 선 두께 정보를 가진다.
도 9는 본 발명의 실시 예에 따른 문단에서 행수 및 쓰기방향을 추론하는 문단 분석의 모습을 나타낸다.
도 9를 참조하면, 문단 레이아웃은 그 위치, 레이아웃의 크기, 행수, 각 행 별 기울기, 각 행의 레이블과 데이터의 형상의 정보를 분석하여 추출되며 문단 영역의 픽셀 위치와 크기 정보를 추출하여 위치 추적 될 수 있다.
행수를 판별하는 경우, 단위 영역을 추정하기 위하여 블록을 형상하여 판정하려 하면, 행의 앞부분/뒷부분이 상하 행의 영역과 중첩되는 현상이 빈번하므로, 행간의 영역이 중첩되어도 개별 행의 시작과 끝의 영역 변화의 상황을 인지하여야 가능한 정확한 행의 기울기를 얻을 수 있다.
실시 예에 따라, 문단 영역으로 최종 판정된 영역을 하측으로 드룹다운, 우측으로 드롭다운하여, 각 블록의 거리차이와 문자 세그먼트 그룹의 크기를 비교하여 쓰기방향(가로/세로 쓰기)을 판정하고 최대 블록수가 1차 행의 개수로 판정할 수 있다.
도 10은 본 발명의 실시 예에 따른 문단에서 곡률 형상에서의 단에서 행 영역 중첩을 분석하는 모습을 나타낸다.
도 10을 참조하면, 행의 배치 형상이 곡률로 이루어진 경우 행 영역 중첩의 문제점이 나타남을 보여준다.
이 경우, 행수 추출 결과물인 쓰기방향과 행수를 참고하며, 아래의 해결방안 1~3으로 행수 검증, 회전각 도출, 레이블 및 데이터 쌍 구조를 검토할 수 있다.
해결방안 1은, 문단을 쓰기방향(가로쓰기/세로쓰기)에 따른 균등 분할 (A4 가로쓰기기준 최소 5분할 ~ 최대 7분할)하여 각 행 블록에서 상하의 영역 중첩 현상 점검하여 상하 중첩 현상이 있으면, 바로 이전 블록의 중심위치의 높이와 문자 세그먼트의 높이을 검토하여 각 중첩 영역의 행을 분리하여 정확한 행의 수를 도출한다.
해결방안 2는 회전각(기울기)도출을 수행하며, 이는 행의 개수의 판정 후 , 각각의 행 시작/종료 블록위치를 확인한다. 각 블록의 (시작 위치 중심과, 종료 위치 중심)과 블록의 거리차이의 라디안 값이 행의 기울기가 된다.
해결방안 3은, 레이블 및 데이터 쌍의 구조 검토로서 각 행의 블록의 비연속으로 형성되는 경우, 해당 행은 일반적인 문장보다는 레이블과 데이터의 쌍으로 구성된 행의 가능성이 있으므로 논지적으로 행을 분할할 수 있다.
도 11은 본 발명의 다른 실시 예에 따라 레이블 및 데이터 쌍의 구조를 검토하는 문단 분석의 모습을 나타낸다.
도 11은 도 10의 레이블 및 데이터 쌍의 구조를 검토하는 것으로, 문단 균등 분할 여부를 행별 상하 영역 중첩 점검 및 행별 시작/종료 블럭위치 판별로서 검토하는 과정을 나타낸다.
도 12는 본 발명의 실시 예에 따라 표 세그먼트에서 특징점을 분석하는 모습을 나타낸다.
도 12를 참조하면, 표 레이아웃의 위치, 표의 구성 형태, 외곽선의 상태, 각 세부 셀의 상태를 분석하기 위해 일반적인 특징점 배치의 형상(b)을 통해, 표의 셀을 구분하는 특징점 형상을 정리하고 각각을 코드화한 모습(a)을 나타낸다.
표를 구성하는 셀의 구성 형태는, 표를 구성하는 특징점의 상태(위치)를 통계하여 최적의 행렬을 분석하고, 각 셀의 상태 정보(셀의 병합상태, 셀 위치, 셀 영역 레이아웃, 문단, 내부 표/박스/도형)등을 분석하는 근거로 활용될 수 있다.
코드화를 통해 표의 구분선이 노이즈등으로 연속선이 아닌 경우 등의 오류를 확인할 수 있으며,(주로 FAX 수신 자료), 셀의 구분이 정확하지 않아 인접한 셀의 문자 정보가 오인식 되는 경우 [예:결재란]와 같은 돌출형태의 셀의 상태를 구별할 수 있다.
다만, 특이하게 (0x06-좌상단 최외곽, 0x03-우상단 최외곽, 0x0c-좌하단 최외곽, 0x09-우하단 최외곽)은 특징점으로 정의 되지 않는 경우가 발생할 수 있는데, 이는 도 12의 우측 그림과 같이 표를 구성하는 셀 구분자의 특징점을 X축, Y축특정 좌표로의 사상으로 해결할 수 있다.
표가 회전이 되어있을 수 있으므로(촬영시 흔들림 등) 동일한 좌표위치로 사상되지 않을 수 있으나 사상된 좌표를 표의 내부 문자세그먼트 크기로 보정하면 각 사상 위치의 거리차이는 최소한 표의 문자 세그먼트의 크기 이상이 된다.
X축으로 사상된 위치에서 구분자 개수, 구분자의 높이 통계자료(최대/최소 거리, 평균 거리)를 추출하고, Y축으로 사상된 위치에서 구분자 개수, 구분자의 넓이 통계자료(최대/최소 거리, 평균 거리)를 추출할 수 있다. 각 사상위치에서 구분자가 1개 이하일 경우는 셀 구분자의 형태 보다는 노이즈 등으로 발생되는 선분 연속성이 소실된 현상이므로 셀 구분자가 될 수 없음을 알 수 있다.
각각의 행렬의 X축, Y축 사상 좌표의 (최대 개수 - 1)이 표를 구성하는 셀의 행과 열이 된다. 행렬의 개수가 각 1이면, 박스로 판정한다.
X축, Y축의 사상 결과를 분석하여 셀의 구분자가 위치 가능 한 공간을 추정하고 추정위치의 공간의 특징점의 형상코드(기본개념의 코드)를 참조하여 셀의 병합 여부 및 셀의 영역을 판정할 수 있다. 또한 각 셀의 영역을 및 각 셀의 구분자 형태를 참고하여, 각각의 셀의 외곽선 영역이 위치하는 영역(상/하/좌/우)의 외곽선 상태를 판정할 수 있다.
또한 본 발명은 이상의 방법을 프로그램으로 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체를 제공할 수도 있다.
이상에서 대표적인 실시예를 통하여 본 발명을 상세하게 설명하였으나, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리 범위는 설명한 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 특허청구범위와 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태에 의하여 정해져야 한다.
Claims (7)
- 입력된 문서의 각 영역을 구분하여 이진화, 중심선 추출 또는 복수의 세그먼트 추출 과정을 포함하는 전처리를 통해 비정형 문서의 형태를 전자화하는 이미지 문서의 비정형 레이아웃 인식 방법에 있어서,
상기 세그먼트의 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 통계내어 각 세그먼트의 상관 관계를 분석하고 인식 가능한 세그먼트를 그룹화하여 상기 문서를 분석하기 위한 기초 데이터를 생성하는 세그먼트 분석 단계;
상기 세그먼트의 분석 대상 영역에서 독립적으로 분리 가능한 단위영역을 도출하고 상기 단위 영역 간 분리된 영역이 그룹 세그먼트 크기의 평균값의 2배 이상인지 판단하여 독립된 레이아웃으로 분리하고 표, 박스, 도형, 상하 문단 또는 좌우 문단을 독립적으로 분리 가능한 단위영역을 도출하며 페이지 전체 영역 분석과 기 설정된 세부 영역 분석을 수행하여 상기 문서의 배치 상태 또는 단락을 분석하는 레이아웃 분석 단계; 및
상기 레이아웃 분석 결과를 통해 상기 단위 영역을 문단, 표, 박스 또는 도형 중 적어도 어느 하나로 분류하고 분류된 단위 영역에 따라 문자의 위치, 행수, 회전각, 셀 구분선 통계 중 적어도 어느 하나를 이용하여 세부적으로 문자를 인식하는 세부 분석 단계를 포함하는 이미지 문서의 비정형 레이아웃 인식 방법.
- 제 1 항에 있어서,
상기 세그먼트 분석 단계는,
상기 세그먼트의 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 평균값, 최대값, 최소값 또는 중간값으로 통계처리하는 단계;
상기 통계처리 된 세그먼트의 상관 관계를 통해 기 설정된 기준에 따라 각 세그먼트를 그룹화하는 단계; 및
그룹 세그먼트에 대해 분기점 개수, 끝점 개수, 넓이 또는 높이 중 적어도 어느 하나를 평균값, 최대값, 최소값 또는 중간값으로 그룹 통계처리하는 단계를 더 포함하는 이미지 문서의 비정형 레이아웃 인식 방법.
- 제 2 항에 있어서,
상기 세그먼트 분석 단계는,
상기 그룹 세그먼트와 그룹 세그먼트 통계 정보에 의거하여 상기 그룹 세그먼트의 속성을 문자 그룹과 비 문자 그룹으로 부여하는 단계를 더 포함하는 이미지 문서의 비정형 레이아웃 인식 방법.
- 삭제
- 제 1 항에 있어서,
상기 세부 분석 단계는,
상기 레이아웃 내부의 단위 영역에 포함된 세그먼트 중 처음 시작하는 대표 세그먼트가 문자 세그먼트인지 여부를 판단하는 단계; 및
상기 대표 세그먼트가 상기 문자 세그먼트인지 여부에 따라 문자 그룹 또는 비 문자 그룹의 레이아웃으로 속성을 정의하는 단계를 더 포함하는 이미지 문서의 비정형 레이아웃 인식 방법.
- 제 3 항 또는 제 5 항에 있어서,
상기 비 문자 그룹은,
문단, 표, 박스 또는 도형 그룹 중 적어도 어느 하나의 속성으로 정의되는 것을 특징으로 하는 이미지 문서의 비정형 레이아웃 인식 방법.
- 제 1 항 내지 제 3 항 및 제 5 항 중 어느 한 항의 방법을 프로그램으로 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210041869A KR102324221B1 (ko) | 2021-03-31 | 2021-03-31 | 이미지 문서의 비정형 레이아웃 인식 방법 |
PCT/KR2022/003706 WO2022211323A1 (ko) | 2021-03-31 | 2022-03-17 | 이미지 문서의 비정형 레이아웃 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210041869A KR102324221B1 (ko) | 2021-03-31 | 2021-03-31 | 이미지 문서의 비정형 레이아웃 인식 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102324221B1 true KR102324221B1 (ko) | 2021-11-10 |
Family
ID=78500209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210041869A KR102324221B1 (ko) | 2021-03-31 | 2021-03-31 | 이미지 문서의 비정형 레이아웃 인식 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102324221B1 (ko) |
WO (1) | WO2022211323A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022211323A1 (ko) * | 2021-03-31 | 2022-10-06 | 주식회사 매직핑거 | 이미지 문서의 비정형 레이아웃 인식 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007011529A (ja) | 2005-06-29 | 2007-01-18 | Njk:Kk | Ocr処理における文字認識位置の決定方法 |
KR101484419B1 (ko) * | 2013-12-17 | 2015-01-28 | 비플라이소프트(주) | 전자문서의 레이아웃 자동인식 시스템 및 레이아웃 자동인식 방법 |
KR20160027862A (ko) * | 2014-09-02 | 2016-03-10 | 삼성전자주식회사 | 이미지 데이터를 처리하는 방법과 이를 지원하는 전자 장치 |
KR101846342B1 (ko) * | 2016-09-30 | 2018-04-09 | 주식회사 아이온커뮤니케이션즈 | 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체 및 전자문서 관리 시스템 |
KR101985612B1 (ko) * | 2018-01-16 | 2019-06-03 | 김학선 | 종이문서의 디지털화 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101028670B1 (ko) * | 2008-10-22 | 2011-04-12 | 엔에이치엔(주) | 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체 |
KR102324221B1 (ko) * | 2021-03-31 | 2021-11-10 | 주식회사 매직핑거 | 이미지 문서의 비정형 레이아웃 인식 방법 |
-
2021
- 2021-03-31 KR KR1020210041869A patent/KR102324221B1/ko active IP Right Grant
-
2022
- 2022-03-17 WO PCT/KR2022/003706 patent/WO2022211323A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007011529A (ja) | 2005-06-29 | 2007-01-18 | Njk:Kk | Ocr処理における文字認識位置の決定方法 |
KR101484419B1 (ko) * | 2013-12-17 | 2015-01-28 | 비플라이소프트(주) | 전자문서의 레이아웃 자동인식 시스템 및 레이아웃 자동인식 방법 |
KR20160027862A (ko) * | 2014-09-02 | 2016-03-10 | 삼성전자주식회사 | 이미지 데이터를 처리하는 방법과 이를 지원하는 전자 장치 |
KR101846342B1 (ko) * | 2016-09-30 | 2018-04-09 | 주식회사 아이온커뮤니케이션즈 | 전자문서 관리방법을 컴퓨터에서 실행시키기 위한 프로그램을 저장한 기록매체 및 전자문서 관리 시스템 |
KR101985612B1 (ko) * | 2018-01-16 | 2019-06-03 | 김학선 | 종이문서의 디지털화 방법 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022211323A1 (ko) * | 2021-03-31 | 2022-10-06 | 주식회사 매직핑거 | 이미지 문서의 비정형 레이아웃 인식 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2022211323A1 (ko) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
USRE47889E1 (en) | System and method for segmenting text lines in documents | |
JP5379085B2 (ja) | スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム | |
Shafait et al. | Performance evaluation and benchmarking of six-page segmentation algorithms | |
JP2536966B2 (ja) | テキスト編集システム | |
JP3359095B2 (ja) | 画像処理方法及び装置 | |
US8693790B2 (en) | Form template definition method and form template definition apparatus | |
Sánchez et al. | Automatic line and word segmentation applied to densely line-skewed historical handwritten document images | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
KR102324221B1 (ko) | 이미지 문서의 비정형 레이아웃 인식 방법 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
US8989485B2 (en) | Detecting a junction in a text line of CJK characters | |
Das et al. | Seam carving, horizontal projection profile and contour tracing for line and word segmentation of language independent handwritten documents | |
Ranka et al. | Automatic table detection and retention from scanned document images via analysis of structural information | |
Kumar et al. | Line based robust script identification for indianlanguages | |
Razak et al. | A real-time line segmentation algorithm for an offline overlapped handwritten Jawi character recognition chip | |
JP2001126010A (ja) | 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体 | |
Gayashan et al. | Old Sinhala newspaper article segmentation for content recognition using image processing | |
Randriamasy et al. | A region-based system for the automatic evaluation of page segmentation algorithms | |
Kaur et al. | Heuristic-based text segmentation of bilingual handwritten documents for Gurumukhi-Latin scripts | |
Humied | Segmentation accuracy for offline Arabic handwritten recognition based on bounding box algorithm | |
CN114495142A (zh) | 文档段落位置提取装置 | |
Gupta et al. | Line segmentation from unconstrained handwritten text images using adaptive approach | |
Mehrotra et al. | Automatic Table Detection and Retention from Scanned Document Images via Analysis of Structural Information | |
Sahle | Segmentation of Real Life Amharic Documents for Improving Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GRNT | Written decision to grant |