KR102063036B1 - 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법 - Google Patents
딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법 Download PDFInfo
- Publication number
- KR102063036B1 KR102063036B1 KR1020180045656A KR20180045656A KR102063036B1 KR 102063036 B1 KR102063036 B1 KR 102063036B1 KR 1020180045656 A KR1020180045656 A KR 1020180045656A KR 20180045656 A KR20180045656 A KR 20180045656A KR 102063036 B1 KR102063036 B1 KR 102063036B1
- Authority
- KR
- South Korea
- Prior art keywords
- coordinates
- sampling
- image
- title
- document
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000000007 visual effect Effects 0.000 title claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 108
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000003287 optical effect Effects 0.000 claims abstract description 17
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 238000003707 image sharpening Methods 0.000 claims description 11
- 238000003672 processing method Methods 0.000 claims 1
- 239000000284 extract Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
Images
Classifications
-
- G06K9/627—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G06K9/00409—
-
- G06K9/3258—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T5/002—
-
- G06T5/003—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
-
- G06K2209/01—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법이 개시된다. 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정해서 제목 위치를 추출하는 추출부(100); 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하는 영역 샘플링부(200); 및 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류하는 분류부(300)를 포함한다. 따라서 이미지로부터 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정해서 제목 위치를 추출하고 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하고 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 문서 종류를 분류할 수 있고, 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하고, 판별된 실제 좌표를 설정해서 제목 위치를 추출하는 장점이 있고, 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행하고, 샘플링 이미지를 입력으로 실제 좌표 추론값을 계산하고, 실제 좌표 추론값에 실제 좌표의 배열을 적용해서 추론 좌표를 출력할 수 있다.
Description
본 발명은 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법에 관한 것으로, 더욱 상세하게는 촬영된 문서를 종류별로 분류하는 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법에 관한 것이다.
사용자는 텍스트를 작성해서 문서로 저장한다. 문서는 저장하는 내용에 따라 다양한 형식을 가진다. 다양한 형식을 가지는 문서는 그 특징에 따라 분류되어 보관되어야 문서 관리 효율이 올라갈 수 있다. 문서 관리 효율을 높이기 위해 문서에 포함된 속성값을 이용할 수 있다. 속성값은 문서가 저장하는 내용이 가지는 성격을 구분해서 정해진다.
이러한 다양한 형식을 가지는 문서는 문서 분류 장치에 의해 분리될 수 있다. 문서 분류 장치에 의해 분리되는 문서는 이미지 형태를 가질 수 있다. 전자 저장 매체에 저장되는 문서는 텍스트 형태를 가질 수도 있지만 카메라로 촬영된 문서 이미지가 대부분일 수 있다. 텍스트 문서의 경우 문서 분류 장치는 텍스트로 문서를 분류할 수 있지만 문서 이미지인 경우 문서 분류 장치에는 특정 알고리즘이 적용되어야 한다.
일례로, 문서 분류 장치는 문서에 포함된 속성값을 이용하여 문서를 종류별로 분류한다. 속성값은 문서 제목을 포함한다. 문서 분류 장치는 문서 제목 속성값을 이용하여 문서를 종류별로 분류할 수 있다. 문서가 디지털화된 텍스트 형태로 저장되어 있지 않은 경우 카메라로 촬영된 문서에 대해서는 종래 문서 분류 장치가 문서를 종류별로 분류하지 못하는 문제점이 있다.
카메라로 촬영된 문서를 종류별로 분류하기 위해서는 광학 문자 판독 기술이 적용되어야 한다. 그러나 광학 문자 판독기가 전체 이미지에 대해 문자 판독을 실행하는 경우 텍스트를 올바로 추출하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해서는 전체 이미지에서 문자를 포함하는 영역인 판독할 영역을 결정해서 판독해야 한다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 카메라로 촬영한 문서 이미지를 입력받아 촬영된 문서를 종류별로 분류하는 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법을 제공하는데 있다.
또한, 사람의 시각 모델을 모사하여 문서가 분류될 정보를 포함하고 있는 문서 영역을 추출해서 문서 이미지를 종류별로 분류하는 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명은, 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정해서 제목 위치를 추출하는 추출부(100); 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하는 영역 샘플링부(200); 및 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류하는 분류부(300)를 포함한다.
또한, 추출부(100)는 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정하는 판별부(110); 및 판별부(110)에 의해 판별된 실제 좌표를 설정해서 제목 위치를 추출하는 위치 추출부(120)를 포함한다.
또한, 위치 추출부(120)는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행하는 이미지 샘플링부(121); 샘플링 이미지를 입력으로 현재 샘플링 이미지의 실제 좌표에 더할 실제 좌표 추론값을 출력하는 뉴럴 네트워크(122); 및 실제 좌표 추론값에 판별부(110)에서의 실제 좌표의 배열을 적용해서 추론 좌표를 제목 위치로 출력하는 위치 출력부(123)를 포함한다.
또한, 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함한다.
또한, 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표로 설정해서 제목 위치를 추출하는 단계; 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하는 단계; 및 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류하는 단계를 포함한다.
또한, 추출하는 단계는 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정하는 단계; 및 판별하는 단계에 의해 판별된 실제 좌표를 설정해서 제목 위치를 추출하는 단계를 포함한다.
또한, 제목 위치를 추출하는 단계는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행하는 단계; 뉴럴 네트워크(122)를 통해 샘플링 이미지를 입력으로 실제 좌표 추론값을 출력하는 단계; 및 실제 좌표 추론값에 판별하는 단계에서의 실제 좌표의 배열을 적용해서 추론 좌표를 제목 위치로 출력하는 단계를 포함한다.
또한, 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함한다.
상기와 같은 본 발명에 따른 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법을 이용할 경우에는 이미지로부터 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정해서 제목 위치를 추출하고 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하고 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 문서 종류를 분류할 수 있다.
또한, 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하고, 판별된 실제 좌표를 설정해서 제목 위치를 추출하는 장점이 있다.
또한, 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행하고, 샘플링 이미지를 입력으로 실제 좌표 추론값을 계산하고, 실제 좌표 추론값에 실제 좌표의 배열을 적용해서 추론 좌표를 출력할 수 있다.
도 1은 인식할 문서 이미지를 보인 예시도이다.
도 2는 문서 종류 자동 분류 장치의 구성을 보인 블록도이다.
도 3은 제목 위치 추출을 보인 동작 흐름도이다.
도 4는 이미지 샘플링을 보인 예시도이다.
도 5는 추론 좌표의 연결 형태를 보인 예시도이다.
도 6은 추론 좌표 출력을 보인 예시도이다.
도 7은 제목 위치 추출을 보인 예시도이다.
도 8은 제목 영역 샘플링을 보인 예시도이다.
도 9는 문서 종류 자동 분류 장치의 동작 흐름도이다.
도 2는 문서 종류 자동 분류 장치의 구성을 보인 블록도이다.
도 3은 제목 위치 추출을 보인 동작 흐름도이다.
도 4는 이미지 샘플링을 보인 예시도이다.
도 5는 추론 좌표의 연결 형태를 보인 예시도이다.
도 6은 추론 좌표 출력을 보인 예시도이다.
도 7은 제목 위치 추출을 보인 예시도이다.
도 8은 제목 영역 샘플링을 보인 예시도이다.
도 9는 문서 종류 자동 분류 장치의 동작 흐름도이다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 인식할 문서 이미지를 보인 예시도이다.
문서 이미지는 카메라로 촬영된 이미지이고, 문서 방향이 여러 각도로 회전되어 촬영된 이미지이다. 문서 종류 자동 분류 장치는 문서 이미지를 입력받아 문서를 종류별로 분류한다. 문서 이미지는 그 자체로 문서 판독이 불가능하다. 따라서 문서 종류 자동 분류 장치는 문서 이미지로부터 제목 위치를 추출하고, 제목 영역을 샘플링해서 문자 판독을 실행한다.
제목 위치는 특정한 위치에 대응하고, 제목 영역은 특정한 영역에 대응한다. 이러한 특정한 위치, 특정한 영역은 여러가지 기준에 따라 설정될 수 있지만, 일 실시예로는 제목 위치와 제목 영역으로 설정할 수 있다. 이렇게 구현함으로써 문서 종류 자동 분류 장치가 문서의 종류를 좀더 직관적이고 체계적으로 분류할 수 있기 때문이다. 또한 제목의 위치와 영역이 아니더라도, 문서의 종결시에 기재되는 문서 발행처의 출처 영역 등이 공통적으로 기재되어 있다면 해당 부분들을 특정한 위치나 특정한 영역으로 잡을 수도 있다. 이러한 문서의 예로는 구청, 주민센터 등에서 발급한 여러가지 증명서 등이 있다. 특정한 위치와 영역은 문서가 가지는 특성에 따라 변경이 가능한 것이며, 제목 위치와 제목 영역에 국한되지 않는다.
도 2는 문서 종류 자동 분류 장치의 구성을 보인 블록도이다.
문서 종류 자동 분류 장치는 추출부(100), 영역 샘플링부(200) 및 분류부(300)를 포함한다. 추출부(100)는 판별부(110)와 위치 추출부(120)를 포함한다. 위치 추출부(120)는 이미지 샘플링부(121), 뉴럴 네트워크(122) 및 위치 출력부(123)를 포함한다.
추출부(100)는 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정해서 제목 위치를 추출한다. 추출부(100)가 추출한 제목 위치는 추론 좌표 간의 연결 형태가 사각형 모서리 좌표를 따른다. 제목 위치가 사각형 모서리 좌표 형태로 추출되지 않으면 올바른 제목 위치로 되지 않는다.
영역 샘플링부(200)는 추출부(100)에 의해 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링한다. 영상처리 기법은 샘플링된 제목 영역에 포함될 제목을 분류부(300)가 보다 잘 인식할 수 있도록 적용된다. 예를 들어, 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함한다.
분류부(300)는 영역 샘플링부(200)에 의해 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류한다. 광학 문자 판독 기술은 OCR 방법을 이용한다. 분류부(300)가 샘플링된 제목 영역에서 제목 글자를 인식해서 문서 종류를 분류하게 된다.
도 3은 제목 위치 추출을 보인 동작 흐름도이다.
이미지 샘플링부(121)는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다.
문서 종류 자동 분류 장치는 샘플링 이미지에 대해 제목 좌표를 추론한다.
추론된 제목 좌표는 이미지 샘플링부(121)에 피드백되어 이미지 샘플링을 실행한다. 이미지 샘플링부(121)는 제목 좌표를 추론할 때 이미지 샘플링과 피드백을 반복해서 실행한다. 이러한 동작은 제목 좌표 추론을 올바로 수행되도록 한다.
도 4는 이미지 샘플링을 보인 예시도이다.
이미지 샘플링부(121)는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다. 이미지 샘플링부(121)는 문서 이미지 전체에 대해 이미지 샘플링을 실행한다.
실시예로, 실제 좌표는 좌상(134, 139), 우상(827,173), 우하(872, 782), 좌하(92, 785)이다. 이미지 샘플링부(121)는 이미지 전체에서 문서 이미지 가로 300, 세로 300에 대해 이미지 샘플링을 실행한다.
도 5는 추론 좌표의 연결 형태를 보인 예시도이다.
추론 좌표의 연결 형태는 문서 회전 방향에 따라 배열된 사각 모서리 좌표이다. 문서 회전 방향은 0도, 90도, 180도, 270도 별로 달라지지만, 추론 좌표의 연결 형태는 좌상단과 우하단 좌표로 주어진다. 예를 들어, 샘플링 영역의 좌상단(1)과 우하단(3) 좌표를 기준으로 구분 가능한 추론 좌표의 연결 형태가 주어질 수 있다.
도 6은 추론 좌표 출력을 보인 예시도이다.
판별부(110)는 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별한다. 제목이 회전한 방향을 지시하는 추론 좌표 간의 연결 형태를 판별부(110)가 샘플링 적합성에 사용한다. 판별부(110)는 추론 좌표 간의 연결 형태인 사각형 모서리 좌표를 나타내는 특징을 이용한다. 사각형 모서리 좌표에서 나타나는 X값, Y 값 사이의 크고 작음이 적용된다. 예를 들어, 좌측 상단 좌표와 우측 상단 좌표 사이에는 X값이 증가하고, 좌측 상단 좌표와 좌측 하단 좌표 사이에는 Y값이 증가할 수 있다.
위치 추출부(120)는 판별부(110)에 의해 판별된 실제 좌표를 설정해서 제목 위치를 추출한다. 위치 추출부(120)는 이미지 샘플링부(121), 뉴럴 네트워크(122) 및 위치 출력부(123)를 포함하고, 판별된 실제 좌표에 대해 제목 위치를 추출한다. 위치 추출부(120)에서 이미지 샘플링부(121)에 의한 이미지 샘플링, 뉴럴 네트워크(122)에 의한 실제 좌표 추론, 위치 출력부(123)에 의한 제목 위치 출력이 순차적으로 수행된다.
이미지 샘플링부(121)는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다. 이미지 샘플링부(121)는 문서 이미지 전체에 대해 이미지 샘플링을 실행한다.
뉴럴 네트워크(122)는 이미지 샘플링부(121)의 샘플링 이미지를 입력으로 실제 좌표 추론값을 출력한다. 뉴럴 네트워크(122)는 딥러닝 방법으로 샘플링 이미지를 입력받아 실제 좌표 추론값을 출력한다. 샘플링 이미지는 뉴럴 네트워크(13)에서 입력받을 수 있는 해상도로 이미지 처리될 수 있다. 뉴럴 네트워크(13)가 높은 해상도를 가지면 샘플링 이미지도 그에 맞는 해상도가 사용될 수 있다.
위치 출력부(123)는 실제 좌표 추론값에 판별부(110)에서의 실제 좌표의 배열을 적용해서 추론 좌표를 출력한다. 위치 출력부는 뉴럴 네트워크(122)의 실제 좌표 추론값에 실제 좌표의 배열을 적용해서 추론 좌표를 출력한다.
도 7은 제목 위치 추출을 보인 예시도이다.
이미지 샘플링부(121)는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다. 이미지 샘플링부(121)는 문서 이미지의 전체 영역을 최초 실제 좌표로 설정한다. 이미지 샘플링부(121)는 문서 이미지 전체에 대해 이미지 샘플링을 실행한다.
뉴럴 네트워크(122)는 이미지 샘플링부(121)의 샘플링 이미지를 입력으로 실제 좌표 추론값을 출력한다. 뉴럴 네트워크(122)는 문서의 제목 위치에 대응한 실제 좌표 추론값을 출력한다. 뉴럴 네트워크(122)는 학습 이미지로 문서 이미지가 사용되고, 정답셋으로 문서 이미지에 대응한 제목 위치의 실제 좌표 값이 사용된다. 뉴럴 네트워크(122)는 샘플링 이미지를 입력받으면 샘플링 이미지에 대응한 실제 좌표 추론값을 출력하고, 실제 좌표 추론값은 위치 출력부(123)에 입력된다.
위치 출력부(123)는 뉴럴 네트워크(122)의 실제 좌표 추론값에 판별부(110)에서의 실제 좌표의 배열을 적용해서 추론 좌표를 제목 위치로 출력한다. 위치 출력부(123)는 뉴럴 네트워크(122)의 실제 좌표 추론값에 제목 영역이 회전한 방향을 지시하는 실제 좌표의 배열을 적용해서 추론 좌표를 출력한다. 위치 출력부(123)에서 출력된 추론 좌표는 영역 샘플링부(200)에 입력되어 영역 샘플링부(200)가 제목 영역을 샘플링하는데 사용된다.
영역 샘플링부(200)는 위치 출력부(123)의 추론 좌표로 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링한다. 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함한다. 원근 뒤틀기는 이미지에서 서로 다른 원근의 소실점을 정렬해 하나의 완벽한 이미지를 만들고, 잡음 제거는 이미지에서 잡음을 제거하고, 이미지 선명화는 예를 들어, 모폴로지 연산으로 이미지 윤곽을 선명화한다.
도 8은 제목 영역 샘플링을 보인 예시도이다.
제목 영역 샘플링 동작에서 영역 샘플링부(200)와 분류부(300)가 동작한다. 영영 샘플링부(200)는 제목 영역을 샘플링하고, 분류부(300)는 샘플링된 제목 영역에 대해 문서 종류를 분류하는 동작을 실행한다.
영역 샘플링부(200)는 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링한다. 실시예로, 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함한다. 영역 샘플링부(200)는 영상처리 기법을 적용해서 제목 영역을 보다 더 선명하게 만든다. 이미지 처리된 제목 영역은 분류부(300)에 의해 광학 문자 판독 기술이 적용된다.
분류부(300)는 영역 샘플링부(200)에 의해 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류한다. 광학 문자 판독 기술이 적용된 분류부(300)는 샘플링된 제목 영역에 대해 글자를 인식하고 인식된 글자로 문서 종류를 분류한다.
도 9는 문서 종류 자동 분류 방법의 동작 흐름도이다.
문서 종류 자동 분류 방법에 대해 설명한다.
문서 종류 자동 분류 장치는 프로그램을 저장하는 프로그램 메모리, 데이터를 저장하는 데이터 메모리, 프로그램을 실행하는 프로세서를 포함한다.
프로그램 메모리에 저장된 데이터를 살펴보면, 프로그램 메모리는 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정해서 제목 위치를 추출하는 단계(S91); 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하는 단계(S92); 및 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류하는 단계(S93)를 포함한다.
문서 종류 자동 분류 장치는 프로세서에 의해 프로그램 메모리에 저장된 프로그램을 실행하며 이러한 동작을 설명하면 다음과 같다.
문서 종류 자동 분류 장치에서 실행되는 절차를 시계열 순으로 설명한다.
문서 종류 자동 분류 장치는 실제 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정해서 제목 위치를 추출한다. 제목이 회전한 방향을 지시하는 실제 좌표 간의 연결 형태를 문서 종류 자동 분류 장치가 샘플링 적합성에 사용한다.
문서 종류 자동 분류 장치는 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링한다. 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함한다.
문서 종류 자동 분류 장치는 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류한다. 광학 문자 판독 기술이 적용된 문서 종류 자동 분류 장치가 샘플링된 제목 영역에 대해 글자를 인식하고 인식된 글자로 문서 종류를 분류한다.
문서 종류 자동 분류 장치는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다. 문서 종류 자동 분류 장치는 문서 이미지의 전체 영역을 최초 실제 좌표로 설정한다. 문서 종류 자동 분류 장치는 문서 이미지 전체에 대해 이미지 샘플링을 실행한다.
문서 종류 자동 분류 장치는 샘플링 이미지에 대해 제목 좌표를 추론한다. 문서 종류 자동 분류 장치는 문서의 제목 위치에 대응한 실제 좌표 추론값을 출력한다.
추론된 제목 좌표는 문서 종류 자동 분류 장치에 피드백되어 이미지 샘플링을 실행한다.
문서 종류 자동 분류 장치는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다.
실시예로, 추론 좌표는 (134, 139), (827,173), (872, 782), (92, 785)이다. 문서 종류 자동 분류 장치는 이미지 전체에서 문서 이미지 가로 300, 세로 300에 대해 이미지 샘플링을 실행한다.
추론 좌표의 연결 형태는 문서 회전 방향에 따라 배열된 사각 모서리 좌표이다. 문서 회전 방향은 0도, 90도, 180도, 270도 별로 달라지지만, 추론 좌표의 연결 형태는 좌상단과 우하단 좌표로 주어진다.
샘플링 영역의 좌상단(1)과 우하단(3) 좌표를 기준으로 구분 가능한 추론 좌표의 연결 형태이다.
문서 종류 자동 분류 장치는 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정한다.
문서 종류 자동 분류 장치는 판별된 실제 좌표를 설정해서 제목 위치를 추출한다.
문서 종류 자동 분류 장치는 실제 좌표 추론값에 실제 좌표의 배열을 적용해서 추론 좌표를 출력한다.
문서 종류 자동 분류 장치는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다. 문서 종류 자동 분류 장치는 문서 이미지 전체에 대해 이미지 샘플링을 실행한다.
문서 종류 자동 분류 장치는 뉴럴 네트워크(122)를 통해 샘플링 이미지를 입력으로 실제 좌표 추론값을 출력한다. 뉴럴 네트워크(122)는 딥러닝 방법으로 샘플링 이미지를 입력받아 실제 좌표 추론값을 출력한다.
문서 종류 자동 분류 장치는 실제 좌표 추론값에 실제 좌표의 배열을 적용해서 추론 좌표를 제목 위치로 출력한다. 문서 종류 자동 분류 장치는 뉴럴 네트워크(122)의 실제 좌표 추론값에 실제 좌표의 배열을 적용해서 추론 좌표를 출력한다.
문서 종류 자동 분류 장치는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행한다. 문서 종류 자동 분류 장치는 문서 이미지의 전체 영역을 최초 실제 좌표로 설정한다. 문서 종류 자동 분류 장치는 문서 이미지 전체에 대해 이미지 샘플링을 실행한다.
뉴럴 네트워크(122)는 샘플링 이미지를 입력으로 실제 좌표 추론값을 출력한다. 뉴럴 네트워크(122)는 문서의 제목 위치에 대응한 실제 좌표 추론값을 출력한다.
문서 종류 자동 분류 장치는 실제 좌표 추론값에 추론 좌표의 배열을 적용해서 추론 좌표를 제목 위치로 출력한다. 문서 종류 자동 분류 장치는 뉴럴 네트워크(122)의 실제 좌표 추론값에 제목 영역이 지시하는 추론 좌표의 배열을 적용해서 추론 좌표를 출력한다.
문서 종류 자동 분류 장치는 추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링한다. 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함한다.
문서 종류 자동 분류 장치는 샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류한다. 광학 문자 판독 기술이 적용된 문서 종류 자동 분류 장치는 샘플링된 제목 영역에 대해 글자를 인식하고 인식된 글자로 문서 종류를 분류한다.
문서 종류 자동 분류 장치는 학습된 뉴럴 네트워크의 환경 변수를 서버에 업로드하고, 서버가 뉴럴 네트워크의 환경 변수를 수집해서 최적의 환경 변수를 다른 문서 종류 자동 분류 장치로 전송할 수 있다. 뉴럴 네트워크의 환경 변수는 뉴럴 네트워크가 학습하는 문서 이미지의 양에 따라 최적화될 수 있다. 서버는 학습량이 일정 수준 이상인 뉴럴 네트워크의 환경 변수를 수집해서 뉴럴 네트워크 학습량이 적은 다른 문서 종류 자동 분류 장치로 전송해서 뉴럴 네트워크를 최적화시킬 수 있다.
문서 종류 자동 분류 장치가 출력한 결과에 대해 사용자가 오류 여부를 평가한다. 서버는 평가된 오류 여부를 수집하고, 문서 종류 자동 분류 장치로부터 오류를 발생시킨 문서 이미지에 관련된 데이터를 수집한다. 서버는 오류를 발생시킨 문서 이미지를 수집해서 수집된 문서 이미지와 정답셋을 뉴럴 네트워크에 학습시켜 뉴럴 네트워크를 최적화한다. 서버는 뉴럴 네트워크의 최적화된 환경 변수를 오류가 발생된 문서 종류 자동 분류 장치로 전송해서 뉴럴 네트워크를 업데이트한다. 이러한 과정을 통해 문서 종류 자동 분류 장치는 오류에 대처할 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 추출부 110: 판별부
120: 위치 추출부 121: 이미지 샘플링부
122: 뉴럴 네트워크 123: 위치 출력부
200: 영역 샘플링부 300: 분류부
120: 위치 추출부 121: 이미지 샘플링부
122: 뉴럴 네트워크 123: 위치 출력부
200: 영역 샘플링부 300: 분류부
Claims (9)
- 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 문서의 제목 위치에 대응하는 실제 좌표를 설정해서 제목 위치를 추출하는 추출부(100);
추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하는 영역 샘플링부(200); 및
샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류하는 분류부(300)를 포함하고,
상기 추출부(100)는 추론 좌표 간의 연결 형태인 사각형 모서리 좌표를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정하는 판별부(110); 및
상기 판별부(110)에 의해 판별된 실제 좌표를 설정해서 상기 제목 위치를 추출하는 위치 추출부(120)를 포함하며,
상기 위치 추출부(120)는 이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행하는 이미지 샘플링부(121);
샘플링 이미지를 입력으로 실제 좌표 추론값을 출력하는 뉴럴 네트워크(122); 및
실제 좌표 추론값에 상기 판별부(110)에서의 상기 추론 좌표의 배열을 적용해서 추론 좌표를 상기 제목 위치로 출력하는 위치 출력부(123)를 포함하는 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치. - 삭제
- 삭제
- 삭제
- 제1항에 있어서,
상기 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함하는 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치. - 추론 좌표 간의 연결 형태를 기준으로 샘플링 적합성을 판별하여 문서의 제목 위치에 대응하는 실제 좌표를 설정해서 제목 위치를 추출하는 단계(S91);
추출된 제목 위치에 대해 영상처리 기법을 적용해서 제목 영역을 샘플링하는 단계(S92); 및
샘플링된 제목 영역에 대해 광학 문자 판독 기술을 이용하여 글자 인식 기반의 문서 종류를 분류하는 단계(S93)를 포함하고,
상기 추출하는 단계(S91)는
상기 추론 좌표 간의 연결 형태인 사각형 모서리 좌표를 기준으로 샘플링 적합성을 판별하여 실제 좌표를 설정하는 단계; 및
상기 판별하는 단계에 의해 판별된 실제 좌표를 설정해서 상기 제목 위치를 추출하는 단계를 포함하며,
상기 제목 위치를 추출하는 단계는
이미지 전체를 최초 실제 좌표로 설정하고 이미지 샘플링을 실행하는 단계;
뉴럴 네트워크(122)를 통해 샘플링 이미지를 입력으로 실제 좌표 추론값을 출력하는 단계; 및
상기 실제 좌표 추론값에 상기 판별하는 단계에서의 상기 추론 좌표의 배열을 적용해서 추론 좌표를 상기 제목 위치로 출력하는 단계를 포함하는 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 방법. - 삭제
- 삭제
- 제6항에 있어서,
상기 영상처리 기법은 원근 뒤틀기, 잡음 제거, 이미지 선명화 중 어느 하나 이상을 포함하는 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180045656A KR102063036B1 (ko) | 2018-04-19 | 2018-04-19 | 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180045656A KR102063036B1 (ko) | 2018-04-19 | 2018-04-19 | 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190131631A KR20190131631A (ko) | 2019-11-27 |
KR102063036B1 true KR102063036B1 (ko) | 2020-01-07 |
Family
ID=68729746
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180045656A KR102063036B1 (ko) | 2018-04-19 | 2018-04-19 | 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102063036B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220039456A (ko) * | 2020-09-22 | 2022-03-29 | 엔에이치농협캐피탈 주식회사 | 문서종류의 자동 분류장치 및 그 방법 |
KR20220107717A (ko) * | 2021-01-26 | 2022-08-02 | 주식회사 엘지유플러스 | 문서로부터 정보를 추출하기 위한 장치의 동작 방법 및 그 장치 |
KR20230096566A (ko) | 2021-12-23 | 2023-06-30 | 주식회사 제인소프트 | 지능형 업무 처리 자동화 시스템 및 그 구동방법 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102256667B1 (ko) * | 2020-03-23 | 2021-05-26 | 주식회사 신한디에스 | 문서 인식 방법 및 그 장치 |
KR102158352B1 (ko) | 2020-03-27 | 2020-09-21 | (주)케이엔랩 | 정책정보 문서의 요지 정보 제공 방법, 정책정보 제공 시스템, 이를 위한 컴퓨터 프로그램 |
KR102149050B1 (ko) * | 2020-04-24 | 2020-08-28 | 주식회사 애자일소다 | 인공지능을 이용한 ocr 기반 문서 분석 시스템 및 방법 |
KR102564555B1 (ko) * | 2020-07-01 | 2023-08-07 | 주식회사 씨에어허브 | 인공지능을 이용한 물류 지원 시스템 및 이의 물류 지원 방법 |
KR20220050356A (ko) | 2020-10-16 | 2022-04-25 | 삼성에스디에스 주식회사 | 문서 인식 장치 및 방법 |
CN113590822B (zh) * | 2021-07-28 | 2023-08-08 | 北京百度网讯科技有限公司 | 文档标题的处理方法、装置、设备、存储介质及程序产品 |
KR102678084B1 (ko) * | 2021-11-01 | 2024-06-25 | (주)웨어비즈 | 인공지능 기반 문자 판독 장치 |
KR102442350B1 (ko) * | 2022-02-18 | 2022-09-13 | 주식회사 도레미파 | 인공지능을 기반으로 자동 문서 작성을 수행하기 위한 정보 분석 방법 및 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101484419B1 (ko) | 2013-12-17 | 2015-01-28 | 비플라이소프트(주) | 전자문서의 레이아웃 자동인식 시스템 및 레이아웃 자동인식 방법 |
KR101585029B1 (ko) | 2015-05-13 | 2016-01-13 | (주)코드원시스템 | 문서 인식 분류 시스템 |
KR101769918B1 (ko) * | 2017-05-17 | 2017-08-21 | 주식회사 마인드그룹 | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9535960B2 (en) | 2014-04-14 | 2017-01-03 | Microsoft Corporation | Context-sensitive search using a deep learning model |
CN105426818B (zh) * | 2015-10-30 | 2019-07-02 | 小米科技有限责任公司 | 区域提取方法及装置 |
CN105550633B (zh) * | 2015-10-30 | 2018-12-11 | 小米科技有限责任公司 | 区域识别方法及装置 |
-
2018
- 2018-04-19 KR KR1020180045656A patent/KR102063036B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101484419B1 (ko) | 2013-12-17 | 2015-01-28 | 비플라이소프트(주) | 전자문서의 레이아웃 자동인식 시스템 및 레이아웃 자동인식 방법 |
KR101585029B1 (ko) | 2015-05-13 | 2016-01-13 | (주)코드원시스템 | 문서 인식 분류 시스템 |
KR101769918B1 (ko) * | 2017-05-17 | 2017-08-21 | 주식회사 마인드그룹 | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220039456A (ko) * | 2020-09-22 | 2022-03-29 | 엔에이치농협캐피탈 주식회사 | 문서종류의 자동 분류장치 및 그 방법 |
KR102425032B1 (ko) * | 2020-09-22 | 2022-07-25 | 엔에이치농협캐피탈 주식회사 | 문서종류의 자동 분류장치 및 그 방법 |
KR20220107717A (ko) * | 2021-01-26 | 2022-08-02 | 주식회사 엘지유플러스 | 문서로부터 정보를 추출하기 위한 장치의 동작 방법 및 그 장치 |
KR20230096566A (ko) | 2021-12-23 | 2023-06-30 | 주식회사 제인소프트 | 지능형 업무 처리 자동화 시스템 및 그 구동방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20190131631A (ko) | 2019-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102063036B1 (ko) | 딥러닝과 문자인식으로 구현한 시각주의 모델 기반의 문서 종류 자동 분류 장치 및 방법 | |
US10943105B2 (en) | Document field detection and parsing | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
CN108334848B (zh) | 一种基于生成对抗网络的微小人脸识别方法 | |
Netzer et al. | Reading digits in natural images with unsupervised feature learning | |
CN108805076B (zh) | 环境影响评估报告书表格文字的提取方法及系统 | |
EP2275974A2 (en) | System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking | |
US20130011067A1 (en) | Adaptive partial character recognition | |
WO2021042505A1 (zh) | 基于文字识别技术的笔记生成方法、装置和计算机设备 | |
Singh et al. | Offline script identification from multilingual indic-script documents: a state-of-the-art | |
CN106203539A (zh) | 识别集装箱箱号的方法和装置 | |
TW200529093A (en) | Face image detection method, face image detection system, and face image detection program | |
CN114092938B (zh) | 图像的识别处理方法、装置、电子设备及存储介质 | |
CN111523537A (zh) | 一种文字识别方法、存储介质及系统 | |
Tardón et al. | Optical music recognition for scores written in white mensural notation | |
Asad et al. | High performance OCR for camera-captured blurred documents with LSTM networks | |
CN109635796B (zh) | 调查问卷的识别方法、装置和设备 | |
Zhao et al. | DetectGAN: GAN-based text detector for camera-captured document images | |
Bhattacharya et al. | Understanding contents of filled-in Bangla form images | |
CN114627484A (zh) | 一种复杂多场景文档分割方法、系统、装置及介质 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
US11386636B2 (en) | Image preprocessing for optical character recognition | |
CN115761781A (zh) | 一种用于工程电子档案笔记图像数据识别系统 | |
Bhatt et al. | Text Extraction & Recognition from Visiting Cards | |
Imran et al. | Cursive handwritten segmentation and recognition for instructional videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |