KR102252286B1 - 이미지형 문서의 변화 감지 및 인식 장치 및 방법 - Google Patents

이미지형 문서의 변화 감지 및 인식 장치 및 방법 Download PDF

Info

Publication number
KR102252286B1
KR102252286B1 KR1020200021740A KR20200021740A KR102252286B1 KR 102252286 B1 KR102252286 B1 KR 102252286B1 KR 1020200021740 A KR1020200021740 A KR 1020200021740A KR 20200021740 A KR20200021740 A KR 20200021740A KR 102252286 B1 KR102252286 B1 KR 102252286B1
Authority
KR
South Korea
Prior art keywords
image
data
character
input
document
Prior art date
Application number
KR1020200021740A
Other languages
English (en)
Inventor
최진영
김현조
Original Assignee
주식회사 더방픽
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 더방픽 filed Critical 주식회사 더방픽
Priority to KR1020200021740A priority Critical patent/KR102252286B1/ko
Application granted granted Critical
Publication of KR102252286B1 publication Critical patent/KR102252286B1/ko

Links

Images

Classifications

    • G06K9/00483
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • G06K9/00456
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

컴퓨터 리소스 사용량이 적은 히스토그램 기반의 문자 분할을 기반으로 이미지형 문서의 OCR 변환 여부를 결정하여, 불필요한 OCR 변환을 방지하여 컴퓨터 리소스 사용량을 줄이고, 적은 컴퓨터 리소스 사용에 의해 효율적으로 문서 업데이트 및 관리를 수행할 수 있는 이미지형 문서의 변화 감지 및 인식 방법, 기록 매체가 개시된다. 본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법은, 이미지형 문서에 포함된 추출 대상 데이터를 이진화하여 히스토그램을 산출하고, 상기 히스토그램을 기반으로 상기 추출 대상 데이터에 포함된 문자를 분할하는 단계; 상기 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 히스토그램 패턴을 비교하여 문자 일치율을 산출하는 단계; 및 상기 문자 일치율에 따라 상기 추출 대상 데이터를 광학식 문자 판독(OCR; Optical Character Recognition)에 의해 추출할지 여부를 결정하는 단계를 포함한다.

Description

이미지형 문서의 변화 감지 및 인식 장치 및 방법{APPARATUS AND METHOD FOR DETECTING AND RECOGNIZING CHANGES IN IMAGE DOCUMENTS}
본 발명은 이미지형 문서의 변화 감지 및 인식 장치 및 방법에 관한 것으로, 보다 상세하게는 불필요한 OCR 변환을 방지하여 적은 컴퓨터 리소스 사용량에 의해 이미지형 문서의 변화를 감지 및 인식하고 효율적으로 문서 업데이트 및 관리를 수행할 수 있는 이미지형 문서의 변화 감지 및 인식 장치 및 방법에 관한 것이다.
인터넷 등기소와 같은 발급시스템은 사용자가 필요로 하는 문서를 조회하여 발급받을 수 있도록 하는 서비스를 제공하고 있다. 일반적으로 사용자가 신용 평가 변동 사항, 부동산 등기 변경 사항 등을 확인하기 위해서는 필요한 문서를 새로 조회하여 발급받아야 하며, 사용자가 발급받은 문서를 원본 문서(과거에 발급받은 문서)와 일일이 비교하여 직접 변경된 부분을 확인해야 하는 불편함이 따랐다. 또한, 발급받은 문서에서 텍스트 비교를 통해 변경된 부분을 확인하기 위해 이미지형 문서를 광학식 문자 판독(OCR; Optical Character Recognition)에 의해 변환해야 하는 경우에는 OCR 변환을 위해 과도한 컴퓨터 리소스 사용이 요구되어 문서 발급 시간이 지연되었으며, OCR 변환에 의해 문서의 변경 여부를 최종적으로 판단하기 전까지 문서 변경 여부를 알 수 없기 때문에 실제로 문서가 변경되지 않았음에도 불구하고 불필요하게 OCR 변환을 실행함으로 인해 과도한 컴퓨터 리소스 사용량이 필요하였으며 시간 및 인적 자원을 낭비하게 되는 문제가 발생하였다.
대한민국 공개특허공보 10-2005-0045291 대한민국 공개특허공보 10-2010-0099005
본 발명은 컴퓨터 리소스 사용량이 적은 히스토그램 기반의 문자 분할을 기반으로 이미지형 문서의 OCR 변환이 필요한지 여부를 미리 판단하여, 이미지형 문서가 원본 문서로부터 변경된 경우에만 OCR 변환을 수행하도록 함으로써, 불필요한 OCR 변환으로 인한 과도한 컴퓨터 리소스 사용을 방지하고, 적은 컴퓨터 리소스 사용에 의해 효율적으로 문서 업데이트 및 관리를 수행할 수 있는 이미지형 문서의 변화 감지 및 인식 방법, 기록 매체를 제공하기 위한 것이다.
또한, 본 발명은 이미지형 문서의 발급을 위해 필요한 데이터(예를 들어, 사용자 개인 정보, 캡차 암호 등)를 자동으로 조회 화면에 입력하여 이미지형 문서를 자동 발급받을 수 있으며, 이미지형 문서의 발급 시간을 단축할 수 있는 이미지형 문서의 변화 감지 및 인식 방법, 기록 매체를 제공하기 위한 것이다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법은, 이미지형 문서에 포함된 추출 대상 데이터를 이진화하여 히스토그램을 산출하고, 상기 히스토그램을 기반으로 상기 추출 대상 데이터에 포함된 문자를 분할하는 단계; 상기 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 히스토그램 패턴을 비교하여 문자 일치율을 산출하는 단계; 및 상기 문자 일치율에 따라 상기 추출 대상 데이터를 광학식 문자 판독(OCR; Optical Character Recognition)에 의해 추출할지 여부를 결정하는 단계를 포함한다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법은, 미리 설정된 기준 템플릿을 기반으로 템플릿 매칭에 의해 상기 이미지형 문서에서 상기 기준 템플릿에 매칭되는 상기 추출 대상 데이터를 추출하는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법은, 상기 문자 일치율이 설정된 기준값 미만인 경우, 상기 추출 대상 데이터에 대해 OCR 변환을 수행하는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법은, 상기 문자 일치율이 상기 기준값 이상인 경우, 상기 추출 대상 데이터에 대해 OCR 변환을 수행하지 않고 데이터 추출 프로세스를 종료하는 단계를 더 포함할 수 있다.
상기 비교 대상 문자는, 상기 이미지형 문서와 관련된 원본 문서의 추출 대상 영역 내의 문자를 포함할 수 있다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법은, 조회 화면 내의 입력창에 입력 데이터를 입력한 후 조회 버튼을 입력하여 상기 이미지형 문서를 조회하는 단계를 더 포함할 수 있다.
상기 이미지형 문서를 조회하는 단계는, 상기 입력창과 관련하여 설정된 기준 입력 템플릿을 기반으로 템플릿 매칭에 의해 상기 조회 화면에서 상기 입력창 및 상기 조회 버튼을 검출하는 단계; 상기 조회 화면에서 검출된 상기 입력창에 상기 입력 데이터를 자동 입력하는 단계; 및 상기 입력창에 상기 입력 데이터가 자동 입력된 후, 상기 조회 버튼을 입력하여 상기 이미지형 문서를 조회하는 단계를 포함할 수 있다.
상기 조회 화면은 캡차 이미지와 상기 입력창에 해당하는 캡차 입력창을 포함할 수 있다. 본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법은, 광학식 문자 판독에 의해 상기 캡차 이미지로부터 상기 캡차 입력창에 입력할 상기 입력 데이터를 추출하는 단계를 더 포함할 수 있다.
본 발명의 실시예에 따르면, 상기 이미지형 문서의 변화 감지 및 인식 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체가 제공된다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치는, 이미지형 문서에 포함된 추출 대상 데이터를 이진화하여 히스토그램을 산출하고, 상기 히스토그램을 기반으로 상기 추출 대상 데이터에 포함된 문자를 분할하는 문자 분할 모듈; 및 상기 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 히스토그램 패턴을 비교하여 문자 일치율을 산출하고, 상기 문자 일치율을 기반으로 상기 추출 대상 데이터를 광학식 문자 판독(OCR; Optical Character Recognition)에 의해 추출할지 여부를 결정하는 데이터 추출 결정 모듈을 포함한다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치는, 미리 설정된 기준 템플릿을 기반으로 템플릿 매칭에 의해 상기 이미지형 문서에서 상기 기준 템플릿에 매칭되는 상기 추출 대상 데이터를 추출하는 템플릿 매칭 모듈을 더 포함할 수 있다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치는, 상기 문자 일치율이 설정된 기준값 미만인 경우 상기 추출 대상 데이터에 대해 OCR 변환을 수행하는 OCR 모듈을 더 포함할 수 있다.
상기 데이터 추출 결정 모듈은, 상기 문자 일치율이 상기 기준값 이상인 경우 상기 추출 대상 데이터에 대해 OCR 변환을 수행하지 않고 데이터 추출 프로세스를 종료할 수 있다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치는, 조회 화면 내의 입력창에 입력 데이터를 입력한 후 조회 버튼을 입력하여 상기 이미지형 문서를 조회하는 문서 조회 모듈을 더 포함할 수 있다.
상기 문서 조회 모듈은, 상기 입력창과 관련하여 설정된 기준 입력 템플릿을 기반으로 템플릿 매칭에 의해 상기 조회 화면에서 상기 입력창 및 상기 조회 버튼을 검출하고; 상기 조회 화면에서 검출된 상기 입력창에 상기 입력 데이터를 자동 입력하고; 그리고 상기 입력창에 상기 입력 데이터가 자동 입력된 후, 상기 조회 버튼을 입력하여 상기 이미지형 문서를 조회하도록 구성될 수 있다.
상기 조회 화면은 캡차 이미지와 상기 입력창에 해당하는 캡차 입력창을 포함할 수 있다. 상기 문서 조회 모듈은, 광학식 문자 판독에 의해 상기 캡차 이미지로부터 상기 캡차 입력창에 입력할 상기 입력 데이터를 추출하도록 구성될 수 있다.
본 발명의 실시예에 의하면, 컴퓨터 리소스 사용량이 적은 히스토그램 기반의 문자 분할을 기반으로 이미지형 문서의 OCR 변환이 필요한지 여부를 미리 판단하여, 이미지형 문서가 원본 문서로부터 변경된 경우에만 OCR 변환을 수행하도록 함으로써, 불필요한 OCR 변환으로 인한 과도한 컴퓨터 리소스 사용을 방지하고, 적은 컴퓨터 리소스 사용에 의해 효율적으로 문서 업데이트 및 관리를 수행할 수 있는 이미지형 문서의 변화 감지 및 인식 방법, 기록 매체가 제공된다.
또한, 본 발명의 실시예에 의하면, 이미지형 문서의 발급을 위해 필요한 데이터(예를 들어, 사용자 개인 정보, 캡차 암호 등)를 자동으로 조회 화면에 입력하여 이미지형 문서를 자동 발급받을 수 있으며, 이미지형 문서의 발급 시간을 단축할 수 있다.
도 1은 본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치의 구성도이다.
도 2는 본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법의 순서도이다.
도 3은 도 2의 단계 S120을 설명하기 위한 개념도이다.
도 4는 도 2의 단계 S130을 설명하기 위한 개념도이다.
도 5는 도 2의 단계 S150을 나타낸 순서도이다.
도 6은 도 2의 단계 S110을 나타낸 순서도이다.
도 7 및 도 8은 도 2의 단계 S110을 설명하기 위한 예시도이다.
도 9는 도 2의 단계 S110을 설명하기 위한 또 다른 순서도이다.
도 10 및 도 11은 도 2의 단계 S110을 설명하기 위한 또 다른 예시도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 명세서에서, 어떤 부분이 어떤 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본 명세서에서 사용되는 '~모듈'은 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 하드웨어 구성요소를 의미할 수 있다. '~모듈'에서 제공하는 기능은 복수의 구성요소에 의해 분리되어 수행되거나, 다른 추가적인 구성요소와 통합될 수도 있다. 본 명세서의 '~모듈'은 반드시 소프트웨어 또는 하드웨어에 한정되지 않으며, 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고, 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
본 발명의 이미지형 문서의 변화 감지 및 인식 장치 및 방법은 컴퓨터 리소스를 많이 사용하는 광학식 문자 판독(OCR; Optical Character Recognition)의 사용을 최소화하면서 이미지형 문서의 변화를 감지 및 인식하기 위한 것으로, 이미지형 문서의 추출 대상 데이터의 히스토그램(Histogram) 기반 문자 분할(Character segmentation)에 의해 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 문자 일치율을 산출하고 이를 기반으로 이미지형 문서의 변화 여부를 감지 및 인식하여 광학식 문자 판독에 의한 데이터 추출 여부를 결정한다.
본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치 및 방법은 템플릿 매칭(Template matching)을 통해 이미지형 문서에서 상세 인식이 필요한 부분을 찾은 후, 히스토그램을 이용한 문자 분할을 통해 이미지형 문서가 원본 문서로부터 변화되었는지 여부를 판별한 뒤, 원본 문서와 동일하지 않은 이미지형 문서인 경우에만 OCR을 사용하여 문서 내용을 업데이트할 수 있다.
이와 같이, 이미지형 문서의 추출 대상 데이터의 히스토그램을 기반으로 문자 일치율을 판별하여 적은 리소스만을 사용하여 문서 변경 여부를 판단한 후, 문서가 변경된 경우에만 OCR 변환을 실행함으로써, 적은 컴퓨터 리소스만을 사용하여 효율적으로 문서 업데이트 및 관리를 수행할 수 있으며, 문서 변경 여부를 판단하는데 사용되는 시간 및 인적 비용을 절감할 수 있다.
도 1은 본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치의 구성도이다. 도 1을 참조하면, 본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 장치(100)는 문서 조회 모듈(110), 템플릿 매칭 모듈(120), 문서 변경 판단 모듈(130) 및 광학식 문자 판독(OCR) 모듈(140)을 포함할 수 있다.
실시예에서, 문서 조회 모듈(110)은 이미지형 문서를 조회하기 위한 조회 화면 내의 입력창에 입력 데이터를 자동 입력한 후 조회 버튼을 자동 입력하여 이미지형 문서를 자동으로 조회할 수 있다.
이미지형 문서는 예를 들어, 자동차 등록증, 주민등록증, 가족관계 확인서, 부동산 종합증명서, 계약서, 각종 등기부 등과 같이, 관공서, 공공기관, 정부부처, 채권 관리 회사 혹은 그밖의 다양한 기관 또는 발급시스템으로부터 조회, 발급될 수 있으며, 이미지를 포함하는 문서를 포함할 수 있으나, 이에 제한되는 것은 아니다.
이미지형 문서의 조회/발급을 위한 조회 화면은 예를 들어, 온라인을 통해 사용자에게 이미지형 문서를 발급하는 서비스를 제공하는 인터넷 등기소 등의 웹페이지에서 제공되는 조회 화면일 수 있으나, 이에 제한되는 것은 아니다.
템플릿 매칭 모듈(120)은 미리 설정된 기준 템플릿을 기반으로 템플릿 매칭에 의해 이미지형 문서에서 기준 템플릿에 매칭되는 추출 대상 데이터를 추출할 수 있다. 템플릿 매칭 모듈(120)은 추출 대상 데이터 결정 모듈(122) 및 템플릿 비교 모듈(124)을 포함할 수 있다.
추출 대상 데이터 결정 모듈(122)은 사용자 입력 또는 시스템 설정 등에 의해 이미지형 문서에서 변화된 부분을 추출하기 위한 추출 대상 데이터를 결정(예를 들어, 자동차/부동산 등의 소유주 항목, 계약서 내의 사인/도장 항목 등과 같은 추출 대상 데이터를 선택)할 수 있다. 템플릿 비교 모듈(124)은 미리 설정된 기준 템플릿을 기반으로 템플릿 매칭에 의해 이미지형 문서에서 기준 템플릿에 매칭되는 추출 대상 데이터를 추출할 수 있다.
문서 변경 판단 모듈(130)은 이미지형 문서가 원본 문서로부터 변화되었는지 여부를 판단하여 이미지형 문서에 포함된 추출 대상 데이터를 OCR 변환할지 여부를 결정할 수 있다. 문서 변경 판단 모듈(130)은 문자 분할 모듈(132) 및 데이터 추출 결정 모듈(134)을 포함할 수 있다.
문자 분할 모듈(132)은 이미지형 문서에 포함된 추출 대상 데이터를 이진화하여 히스토그램(Histogram)을 산출하고, 히스토그램을 기반으로 추출 대상 데이터에 포함된 문자를 분할할 수 있다.
데이터 추출 결정 모듈(134)은 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 히스토그램 패턴을 비교하여 문자 일치율을 산출하고, 문자 일치율을 기반으로 추출 대상 데이터를 광학식 문자 판독(OCR)에 의해 추출할지 여부를 결정할 수 있다.
데이터 추출 결정 모듈(134)은 문자 일치율이 기준값 이상인 경우 추출 대상 데이터에 대해 OCR 변환을 수행하지 않고 데이터 추출 프로세스를 종료하고, 문자 일치율이 기준값 미만인 경우, OCR 변환을 위해 추출 대상 데이터를 OCR 모듈(140)로 전달할 수 있다.
OCR 모듈(140)은 문자 일치율이 설정된 기준값 미만인 경우 추출 대상 데이터에 대해 OCR 변환을 수행하여 텍스트를 인식하여 데이터를 추출할 수 있다. OCR 모듈(140)은 OCR 엔진을 포함할 수 있다.
OCR 엔진은 사람에 의해 수기로 작성되거나 기계로 인쇄한 문자의 이미지 등을 이미지 스캐너로 획득하고, 이미지 스캔으로 얻을 수 있는 문서의 활자 영상을 기계가 읽을 수 있고 컴퓨터가 편집 가능한 문자코드 등의 형식으로 변환하는 소프트웨어로 동작할 수 있다.
OCR 모듈(140)은 데이터 입력 모듈(142), OCR 변환 모듈(144) 및 데이터 출력 모듈(146)을 포함할 수 있다. 데이터 입력 모듈(142)은 원본 문서로부터 변화된 이미지형 문서의 추출 대상 데이터를 문서 변경 판단 모듈(130)로부터 입력받을 수 있다.
OCR 변환 모듈(144)은 원본 문서로부터 변화된 이미지형 문서의 추출 대상 데이터를 OCR 변환하여 원본 문서로부터 변경된 부분의 텍스트를 추출할 수 있다. 데이터 출력 모듈(146)은 OCR 변환된 부분을 출력하여 문서를 업데이트할 수 있다.
도 2는 본 발명의 실시예에 따른 이미지형 문서의 변화 감지 및 인식 방법의 순서도이다. 도 1 및 도 2를 참조하면, 문서 조회 모듈(110)은 이미지형 문서를 조회하기 위한 조회 화면 내의 입력창에 입력 데이터를 자동 입력한 후 조회 버튼을 자동 입력하여 이미지형 문서를 조회할 수 있다(S110).
도 3은 도 2의 단계 S120을 설명하기 위한 개념도이다. 도 1 내지 도 3을 참조하면, 템플릿 매칭 모듈(120)은 미리 설정된 기준 템플릿을 기반으로 템플릿 매칭에 의해 이미지형 문서에서 기준 템플릿에 매칭되는 추출 대상 데이터를 추출할 수 있다(S120).
기준 템플릿은 이미지형 문서에서 원본 문서로부터 변경된 사항을 찾기 위한 기준이 되는 부분과 관련하여 미리 설정될 수 있다. 기준 템플릿은 예를 들어, 동산 또는 부동산과 관련된 소유주 항목, 각종 등기 사항 항목, 계약서 내의 도장 혹은 사인 등과 관련된 템플릿 이미지를 예로 들 수 있으나, 이에 제한되는 것은 아니다.
인터넷 등기소에서 발급되는 각종 문서는 문서 형태가 정형화되어 있어, 사용자가 찾고자 하는 부분의 기준 템플릿을 미리 설정하는 것이 가능하다. 기준 템플릿은 하나 또는 복수개가 설정될 수 있으며, 사용자가 찾기 원하는 항목에 따라 사용자 인터페이스를 통해 기준 템플릿을 선택하거나 변경할 수 있도록 제공될 수 있다.
템플릿 매칭 모듈(120)은 웹 애플리케이션을 위한 라이브러리인 셀레늄(Selenium)을 이용하여 기준 템플릿(기준 템플릿 이미지)을 이미지형 문서의 일측(예를 들어, 좌측상단)으로부터 타측(예를 들어, 우측하단)으로 차례로 이동시키며 두 이미지를 비교하는 방법을 통해, 기준 템플릿에 매칭되는 추출 대상 데이터를 찾을 수 있다.
실시예에서, 템플릿 매칭 모듈(168)은 XOR 연산 기반 매칭, 제곱차 매칭, 정규화된 제곱차 매칭, 상관관계, 정규화된 상관관계 등의 다양한 방법을 기반으로 기준 템플릿과 이미지형 문서 내의 영역 별 이미지를 비교하여 추출 대상 데이터를 검출할 수 있다.
도 3에는 숫자 '6'과 관련하여 설정된 기준 템플릿(TMP1)과, 숫자 '2'와 관련하여 설정된 기준 템플릿(TMP2)의 예가 도시되어 있다. 템플릿 매칭에 의해, 이미지형 문서에서 정해진 방향을 따라 순차적으로 기준 템플릿(TMP1, TMP2)과 같은 크기를 가지도록 정규화된 이미지(IMG)를 추출한 후, 정규화된 이미지(IMG)와 기준 템플릿(TMP1, TMP2)의 모든 화소를 XOR 등의 연산에 의해 비교함으로써, 이미지형 문서에서 기준 템플릿(TMP1, TMP2)에 매칭되는 이미지(IMG)의 위치를 찾을 수 있다.
정규화된 이미지(IMG)와, 기준 템플릿(TMP1, TMP2) 간의 XOR 연산에 의해 생성되는 매칭 이미지(IM1, IM2)에서, 두 이미지 간에 화소 값이 서로 일치되는 화소는 흰색으로 도시되어 있으며, 두 이미지 간에 화소 값이 서로 다른 화소는 검은색으로 도시되어 있다.
숫자 '6'에 해당하는 정규화된 이미지(IMG)와, 숫자 '2'와 관련하여 설정된 기준 템플릿(TMP2)을 각 화소 별로 XOR 연산하여 얻은 매칭 이미지(IM2)에서, 전체 화소들 중 두 이미지 간에 화소 값이 서로 일치되는 화소 개수의 비율(M2)은 77%의 비교적 낮은 일치도(설정값 미만의 일치도)를 나타내고, 이로부터 정규화된 이미지(IMG)가 숫자 '2'와 관련하여 설정된 기준 템플릿(TMP2)과 매칭되지 않는 것으로 판단할 수 있다.
이와 달리, 숫자 '6'에 해당하는 정규화된 이미지(IMG)와, 숫자 '6'과 관련하여 설정된 기준 템플릿(TMP1)을 각 화소 별로 XOR 연산하여 얻은 매칭 이미지(IM1)에서, 전체 화소들 중 두 이미지 간에 화소 값이 서로 일치되는 화소 개수의 비율(M1)은 93%의 비교적 높은 일치도(설정값 이상의 일치도)를 나타내고, 이로부터 정규화된 이미지(IMG)가 숫자 '6'과 관련하여 설정된 기준 템플릿(TMP1)과 매칭되는 것으로 판단할 수 있다.
도 4는 도 2의 단계 S130을 설명하기 위한 개념도이다. 도 1, 도 2 및 도 4를 참조하면, 문자 분할 모듈(132)은 이미지형 문서에 포함된 추출 대상 데이터(CHR)를 이진화하여 히스토그램(HST)을 산출하고, 히스토그램(HST)을 기반으로 추출 대상 데이터(CHR)에 포함된 문자(CHR1, CHR2)를 분할할 수 있다(S130). 도 4에 도시된 히스토그램(HST)에서 가로축은 행 방향 화소 축, 세로축은 이미지 내의 같은 행에 속하는 특정 화소 값(0 또는 1)의 누적 빈도를 나타낸다.
이미지형 문서에서 분리된 문자들은 스캐너에 의해 스캔된 후, 이미지 이진화 과정을 거쳐 미리 설정된 임계값에 따라 분할될 수 있다. 다수의 문자가 인접하여 접합된 경우, 인접한 문자들 간의 접합부는 개별 문자와는 전혀 다른 고유 패턴을 형성한다.
이러한 문자들 간의 접합부의 패턴에 의해 개별 문자를 분할할 수 있으며, 분할된 각 문자의 히스토그램 패턴을 분석하여 비교대상 문자의 히스토그램 패턴과 비교함으로써, 각 문자와 원본 문서의 비교 대상 문자 간의 문자 일치율을 판단할 수 있다. 비교 대상 문자는 예를 들어 이미지형 문서를 발급받기 이전의 가장 최근에 업데이트된 문서 또는 최초 발급받은 문서 등과 같은 원본 문서 내의 추출 대상 데이터와 대응되는 문자일 수 있으나, 이에 제한되는 것은 아니다.
도 4에는 추출 대상 데이터(CHR)의 예로 영어 문자 'of'가 예시되어 있으며, 영어 문자 'of'의 히스토그램(HST)이 도시되어 있다. 히스토그램 분포에서 영어 문자 'o'와, 영어 문자 'f' 간의 접합부(ADJ)의 히스토그램 패턴으로부터, 추출 대상 데이터(CHR)에서 영어 문자 'o'(CHR1)와, 영어 문자 'f'(CHR2)를 분할할 수 있다.
데이터 추출 결정 모듈(134)은 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 히스토그램 패턴을 비교하여 문자 일치율을 산출하고(S140), 문자 일치율을 기반으로 추출 대상 데이터를 광학식 문자 판독(OCR)에 의해 추출할지 여부를 결정할 수 있다(S150).
도 5는 도 2의 단계 S150을 나타낸 순서도이다. 도 1, 도 2 및 도 5를 참조하면, 데이터 추출 결정 모듈(134)은 문자 일치율을 기준값과 비교하여(S152), 문자 일치율이 기준값 미만인 경우, 추출 대상 데이터에서 분할된 문자가 비교 대상 문자와 상이하다는 것, 다시 말해 이미지형 문서가 원본 문서로부터 변화된 것을 의미하므로, 이미지형 문서 내의 추출 대상 데이터를 OCR 변환하기 위해 추출 대상 데이터를 OCR 모듈(140)로 전달할 수 있다.
문자 일치율이 설정된 기준값 미만인 경우, 이미지형 문서가 원본 문서로부터 변화되지 않은 것을 의미하므로, OCR 모듈(140)은 문서 변경 판단 모듈(130)로부터 전달받은 추출 대상 데이터에 대해 OCR 변환을 수행할 수 있다(S154). 이때, OCR 모듈(140)은 문서 변경 판단 모듈(130)로부터 전체 이미지형 문서를 전달받아 OCR 변환을 수행할 수도 있고, 이미지형 문서 중 추출 대상 데이터를 포함하는 일부 데이터만을 전달받아 OCR 변환을 수행할 수도 있다.
문자 일치율이 기준값 이상인 경우 추출 대상 데이터에서 분할된 문자가 비교 대상 문자와 동일하다는 것, 다시 말해 이미지형 문서가 원본 문서로부터 변화되지 않은 것을 의미하므로, 이 경우에 데이터 추출 결정 모듈(134)은 불필요한 OCR 변환으로 인한 컴퓨터 리소스 낭비를 방지하기 위하여, 추출 대상 데이터에 대해 OCR 변환을 수행하지 않고 데이터 추출 프로세스를 종료할 수 있다(S156).
히스토그램 기반의 문자 분할 프로세스는 OCR 변환 프로세스에 비해 컴퓨터 리소스 사용량이 훨씬 적기 때문에, 히스토그램 기반의 문자 분할에 의해 산출된 문자 일치율을 기반으로 필요한 경우(이미지형 문서 중 추출 대상 데이터가 변화된 경우)에만 OCR 변환 프로세스를 실행하여 불필요한 OCR 변환을 방지함으로써, 사용자가 문서를 발급받는데 필요한 전체 컴퓨터 리소스 사용량을 줄일 수 있다.
또한, 본 발명의 실시예에 의하면, 사용자에 의해 수기로 작성된 부분을 포함하는 이미지형 문서인 경우에도, 적은 양의 컴퓨터 리소스 사용을 통해 수기로 작성된 부분의 변경 여부를 확인하여 OCR 변환 프로세스의 실행 여부를 결정할 수 있다.
도 6은 도 2의 단계 S110을 나타낸 순서도이다. 도 7 및 도 8은 도 2의 단계 S110을 설명하기 위한 예시도이다. 도 1, 도 2 및 도 6 내지 도 8을 참조하면, 문서 조회 모듈(110)은 조회 화면의 사용자 입력 영역에 해당하는 입력창(10, 20, 30) 및 조회 버튼(40)을 자동 검출하여 이미지형 문서의 발급을 위해 필요한 데이터를 자동으로 입력하여 이미지형 문서를 자동 발급받을 수 있다.
문서 조회 모듈(110)은 먼저 입력창(10, 20, 30) 및/또는 조회 버튼(40)과 관련하여 설정된 기준 입력 템플릿을 기반으로 템플릿 매칭에 의해 조회 화면에서 입력창(10, 20, 30) 및 조회 버튼(40)을 검출할 수 있다(S112).
이때 문서 조회 모듈(110)은 미리 정의된 입력창(10, 20, 30) 및/또는 조회 버튼(40)에 해당하는 기준 입력 템플릿(기준 입력 템플릿 이미지)을 조회 화면 데이터의 일측(예를 들어, 좌측상단)으로부터 타측(예를 들어, 우측하단)으로 차례로 이동시키며 비교하는 방법을 통해 입력창(10, 20, 30) 및/또는 조회 버튼(40)에 해당하는 오브젝트를 검출할 수 있다.
실시예에서, 문서 조회 모듈(110)은 XOR 연산 기반 매칭, 제곱차 매칭, 정규화된 제곱차 매칭, 상관관계, 정규화된 상관관계 등의 다양한 방법을 기반으로 기준 입력 템플릿과 조회 화면 데이터 내의 영역 별 이미지를 비교하여 이미지형 문서의 발급을 위한 입력창(10, 20, 30) 및/또는 조회 버튼(40) 등에 해당하는 오브젝트를 검출할 수 있다.
다음으로, 문서 조회 모듈(110)은 조회 화면에서 검출된 입력창(10, 20, 30)에 미리 설정되거나 조회 화면에서 제공되는 데이터(예를 들어, 캡차 암호) 등의 입력 데이터(12, 22, 32)를 자동 입력한 후, 조회 버튼(40)을 자동 입력하여 이미지형 문서를 조회/발급할 수 있다(S114, S116).
도 7 및 도 8의 예에서, 입력 데이터(12, 22, 32)는 사용자의 개인 정보(성명, 주소, 주민등록번호, 아이디, 비밀번호, 공인인증서 로그인, 통장번호 등), 개인정보 처리방침 또는 이용약관 등에 대한 동의 항목, 또는 캡차(CHPTCHA) 암호 등을 포함할 수 있으나, 이에 제한되는 것은 아니다.
도 6 내지 도 8의 실시예에 의하면, 예를 들어 이미지형 문서의 발급을 위해 사용자 로그인이 필요한 경우에, 사용자 로그인을 자동으로 실행하여 이미지형 문서의 발급 시간을 단축할 수 있으며, 사용자의 수동 로그인으로 인한 인력 낭비를 방지하고 이미지형 문서의 발급을 위한 비용을 줄일 수 있다.
또한, 본 발명의 실시예에 의하면, 캡쳐/조작 불가능한 외부 공인 인증서 프로그램 등을 사용해야 접근할 수 있는 이미지형 문서인 경우에도, 템플릿 매칭을 기반으로 입력창과 조회 버튼의 위치를 검출하여 자동으로 입력 데이터를 입력하여 조회 명령을 실행하여 이미지형 문서를 발급받을 수 있다.
도 9는 도 2의 단계 S110을 설명하기 위한 또 다른 순서도이다. 도 10 및 도 11은 도 2의 단계 S110을 설명하기 위한 또 다른 예시도이다. 도 1, 도 2, 도 9 내지 도 11을 참조하면, 조회 화면은 캡차 이미지(CHPTCHA image)(50)와 입력창에 해당하는 캡차 입력창(60) 및 조회 버튼(70)을 포함할 수 있다.
도 10 및 도 11의 실시예는 문서 조회 모듈(110)이 광학식 문자 판독에 의해 캡차 이미지(50)로부터 캡차 입력창(60)에 입력할 입력 데이터(62)를 추출하여, 사용자가 수기로 캡차 암호를 입력하지 않고, 가상 프린터 및/또는 OCR 엔진 등에 의해 문서 조회 모듈(110)에서 자동으로 캡차 암호를 판독한 후(S111), 캡차 암호를 캡차 입력창(60)에 입력하여 조회 버튼(70)을 입력함으로써(S112, S114, S116), 자동으로 이미지형 문서를 조회할 수 있다.
가상 프린터는 소프트웨어적인 가상의 프린터 장치로서, 실제 프린터를 통해 출력물을 종이로 인쇄하는 것이 아니라, PDF 파일이나 TIFF 등의 컴퓨터 파일로 데이터를 출력할 수 있다. 이미지형 문서의 발급을 위해 로그인 등의 절차가 필요하지 않은 경우에는 미리 설정된 순서에 따라 하나 이상의 조회 버튼을 순차적으로 입력/선택(클릭)하여, 자동으로 이미지형 문서를 조회/발급받을 수 있다.
도 9 내지 도 11의 실시예에 의하면, 예를 들어 이미지형 문서의 발급을 위해 웹사이트에서 캡차를 요구하는 경우에, 캡차 암호를 자동으로 입력하여 인증을 수행함으로써, 이미지형 문서의 발급 시간을 단축할 수 있으며, 사용자의 수동에 의해 캡차 암호 입력으로 인한 인력 낭비를 방지하고 이미지형 문서의 발급을 위한 비용을 줄일 수 있다.
본 발명의 실시예는 예를 들어 금융사에서 각종 데이터를 OCR에 의해 자동 추출하여 스코어링 서비스를 제공하는 신용평가 목적, 부동산(예를 들어, 전세 임차인이 경우, 매일 또는 매주 등의 일정 주기마다 등기 변경 사항을 확인하려는 경우)이나 자동차 관련 증명서 혹은 그 밖의 다양한 조회/발급 데이터에서 필요한 데이터를 OCR에 의해 추출하는 등의 다양한 서비스를 제공하는데 활용될 수 있으며, 히스토그램 기반 문자 분할에 의해 이미지형 문서의 변경 여부를 판단하여 선택적으로 OCR 변환을 수행함으로써 컴퓨터 리소스를 절약하고 데이터를 효율적으로 수집할 수 있다.
본 발명의 실시예에 의하면, 다양한 형태의 이미지형 문서에 대해 효율적인 데이터 추출이 가능하며, 사용자가 수기 입력을 하거나 OCR 변환을 하는데 소요되는 시간과 비용을 절감할 수 있다. 본 발명의 실시예는 효과적인 정보 취합 및 관리 시스템을 구축하는데 활용될 수 있으며, 신용점수 평가와 같은 활용도 높은 스코어링 서비스 제공이 가능하다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/ 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.
처리 장치는 운영 체제 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리요소를 포함할 수 있음을 이해할 것이다.
예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor) 와 같은, 다른 처리 구성(Processing configuration)도 가능하다. 소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.
소프트웨어 및/ 또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody) 될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
100: 이미지형 문서의 변화 감지 및 인식 장치
110: 문서 조회 모듈
120: 템플릿 매칭 모듈
122: 추출 대상 데이터 결정 모듈
124: 템플릿 비교 모듈
130: 문서 변경 판단 모듈
132: 문자 분할 모듈
134: 데이터 추출 결정 모듈
140: 광학식 문자 판독(OCR) 모듈
142: 데이터 입력 모듈
144: OCR 변환 모듈
146: 데이터 출력 모듈

Claims (12)

  1. 이미지형 문서에 포함된 추출 대상 데이터를 이진화하여 히스토그램을 산출하고, 상기 히스토그램을 기반으로 상기 추출 대상 데이터에 포함된 문자를 분할하는 단계;
    상기 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 히스토그램 패턴을 비교하여 문자 일치율을 산출하는 단계; 및
    상기 문자 일치율에 따라 상기 추출 대상 데이터를 광학식 문자 판독(OCR; Optical Character Recognition)에 의해 추출할지 여부를 결정하는 단계를 포함하는, 이미지형 문서의 변화 감지 방법.
  2. 제1항에 있어서,
    미리 설정된 기준 템플릿을 기반으로 템플릿 매칭에 의해 상기 이미지형 문서에서 상기 기준 템플릿에 매칭되는 상기 추출 대상 데이터를 추출하는 단계를 더 포함하는, 이미지형 문서의 변화 감지 방법.
  3. 제1항에 있어서,
    상기 문자 일치율이 설정된 기준값 미만인 경우, 상기 추출 대상 데이터에 대해 OCR 변환을 수행하는 단계; 및
    상기 문자 일치율이 상기 기준값 이상인 경우, 상기 추출 대상 데이터에 대해 OCR 변환을 수행하지 않고 데이터 추출 프로세스를 종료하는 단계를 더 포함하는, 이미지형 문서의 변화 감지 방법.
  4. 제1항에 있어서,
    상기 비교 대상 문자는, 상기 이미지형 문서와 관련된 원본 문서의 추출 대상 영역 내의 문자를 포함하는, 이미지형 문서의 변화 감지 방법.
  5. 제1항에 있어서,
    조회 화면 내의 입력창에 입력 데이터를 입력한 후 조회 버튼을 입력하여 상기 이미지형 문서를 조회하는 단계를 더 포함하고,
    상기 이미지형 문서를 조회하는 단계는,
    상기 입력창과 관련하여 설정된 기준 입력 템플릿을 기반으로 템플릿 매칭에 의해 상기 조회 화면에서 상기 입력창 및 상기 조회 버튼을 검출하는 단계;
    상기 조회 화면에서 검출된 상기 입력창에 상기 입력 데이터를 자동 입력하는 단계; 및
    상기 입력창에 상기 입력 데이터가 자동 입력된 후, 상기 조회 버튼을 입력하여 상기 이미지형 문서를 조회하는 단계를 포함하는, 이미지형 문서의 변화 감지 방법.
  6. 제5항에 있어서,
    상기 조회 화면은 캡차 이미지와 상기 입력창에 해당하는 캡차 입력창을 포함하고,
    광학식 문자 판독에 의해 상기 캡차 이미지로부터 상기 캡차 입력창에 입력할 상기 입력 데이터를 추출하는 단계를 더 포함하는, 이미지형 문서의 변화 감지 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 기재된 이미지형 문서의 변화 감지 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  8. 이미지형 문서에 포함된 추출 대상 데이터를 이진화하여 히스토그램을 산출하고, 상기 히스토그램을 기반으로 상기 추출 대상 데이터에 포함된 문자를 분할하는 문자 분할 모듈; 및
    상기 추출 대상 데이터에서 분할된 문자와 비교 대상 문자 간의 히스토그램 패턴을 비교하여 문자 일치율을 산출하고, 상기 문자 일치율을 기반으로 상기 추출 대상 데이터를 광학식 문자 판독(OCR; Optical Character Recognition)에 의해 추출할지 여부를 결정하는 데이터 추출 결정 모듈을 포함하는, 이미지형 문서의 변화 감지 장치.
  9. 제8항에 있어서,
    미리 설정된 기준 템플릿을 기반으로 템플릿 매칭에 의해 상기 이미지형 문서에서 상기 기준 템플릿에 매칭되는 상기 추출 대상 데이터를 추출하는 템플릿 매칭 모듈을 더 포함하는, 이미지형 문서의 변화 감지 장치.
  10. 제8항 또는 제9항에 있어서,
    상기 문자 일치율이 설정된 기준값 미만인 경우 상기 추출 대상 데이터에 대해 OCR 변환을 수행하는 OCR 모듈을 더 포함하고,
    상기 데이터 추출 결정 모듈은, 상기 문자 일치율이 상기 기준값 이상인 경우 상기 추출 대상 데이터에 대해 OCR 변환을 수행하지 않고 데이터 추출 프로세스를 종료하도록 구성되는, 이미지형 문서의 변화 감지 장치.
  11. 제8항 또는 제9항에 있어서,
    조회 화면 내의 입력창에 입력 데이터를 입력한 후 조회 버튼을 입력하여 상기 이미지형 문서를 조회하는 문서 조회 모듈을 더 포함하고,
    상기 문서 조회 모듈은,
    상기 입력창과 관련하여 설정된 기준 입력 템플릿을 기반으로 템플릿 매칭에 의해 상기 조회 화면에서 상기 입력창 및 상기 조회 버튼을 검출하고;
    상기 조회 화면에서 검출된 상기 입력창에 상기 입력 데이터를 자동 입력하고; 그리고
    상기 입력창에 상기 입력 데이터가 자동 입력된 후, 상기 조회 버튼을 입력하여 상기 이미지형 문서를 조회하도록 구성되는, 이미지형 문서의 변화 감지 장치.
  12. 제11항에 있어서,
    상기 조회 화면은 캡차 이미지와 상기 입력창에 해당하는 캡차 입력창을 포함하고,
    상기 문서 조회 모듈은, 광학식 문자 판독에 의해 상기 캡차 이미지로부터 상기 캡차 입력창에 입력할 상기 입력 데이터를 추출하도록 구성되는, 이미지형 문서의 변화 감지 장치.
KR1020200021740A 2020-02-21 2020-02-21 이미지형 문서의 변화 감지 및 인식 장치 및 방법 KR102252286B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200021740A KR102252286B1 (ko) 2020-02-21 2020-02-21 이미지형 문서의 변화 감지 및 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200021740A KR102252286B1 (ko) 2020-02-21 2020-02-21 이미지형 문서의 변화 감지 및 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102252286B1 true KR102252286B1 (ko) 2021-05-14

Family

ID=75915458

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200021740A KR102252286B1 (ko) 2020-02-21 2020-02-21 이미지형 문서의 변화 감지 및 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102252286B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102501258B1 (ko) * 2022-06-29 2023-02-17 메타스타글로벌 주식회사 글로벌 통합 부동산 정보 플랫폼
KR102617814B1 (ko) * 2023-06-15 2023-12-27 (주) 온결 머신러닝 기술을 적용한 전세사기 예측 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100200619B1 (ko) * 1996-09-10 1999-06-15 윤종용 문자열 영상에서 어절 영상을 분리하는 방법
KR20050045291A (ko) 2003-11-11 2005-05-17 김대희 문서의 영역 선별 인식 및 색상 비교를 통한 전산처리 방법
KR100822326B1 (ko) * 2006-09-08 2008-04-16 김종운 고속처리가 가능한 문자인식 장치 및 그 방법
KR20100099005A (ko) 2009-03-02 2010-09-10 삼성전자주식회사 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치
KR20140128172A (ko) * 2013-04-26 2014-11-05 인텔렉추얼디스커버리 주식회사 신용 카드 정보를 처리하는 단말 장치 및 그 동작 방법
KR101870111B1 (ko) * 2017-01-26 2018-06-21 신명섭 설문조사 겸용 본인인증 시스템

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100200619B1 (ko) * 1996-09-10 1999-06-15 윤종용 문자열 영상에서 어절 영상을 분리하는 방법
KR20050045291A (ko) 2003-11-11 2005-05-17 김대희 문서의 영역 선별 인식 및 색상 비교를 통한 전산처리 방법
KR100822326B1 (ko) * 2006-09-08 2008-04-16 김종운 고속처리가 가능한 문자인식 장치 및 그 방법
KR20100099005A (ko) 2009-03-02 2010-09-10 삼성전자주식회사 히스토그램 분석을 이용한 영상 분류 방법 및 장치, 이를 이용한 문자 인식 방법 및 장치
KR20140128172A (ko) * 2013-04-26 2014-11-05 인텔렉추얼디스커버리 주식회사 신용 카드 정보를 처리하는 단말 장치 및 그 동작 방법
KR101870111B1 (ko) * 2017-01-26 2018-06-21 신명섭 설문조사 겸용 본인인증 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102501258B1 (ko) * 2022-06-29 2023-02-17 메타스타글로벌 주식회사 글로벌 통합 부동산 정보 플랫폼
KR102617814B1 (ko) * 2023-06-15 2023-12-27 (주) 온결 머신러닝 기술을 적용한 전세사기 예측 장치

Similar Documents

Publication Publication Date Title
US9754164B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US20210383150A1 (en) Iterative recognition-guided thresholding and data extraction
US10248954B2 (en) Method and system for verifying user identity using card features
US8155442B2 (en) Method and apparatus for modifying the histogram of an image
US8041139B2 (en) Method and apparatus for calculating the background color of an image
JP4208918B2 (ja) 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体
US10769427B1 (en) Detection and definition of virtual objects in remote screens
CN103975342A (zh) 用于移动图像捕获和处理的系统和方法
US10339373B1 (en) Optical character recognition utilizing hashed templates
US20110135209A1 (en) Business document processor
KR102252286B1 (ko) 이미지형 문서의 변화 감지 및 인식 장치 및 방법
WO2021212873A1 (zh) 证件四角残缺检测方法、装置、设备及存储介质
US11881043B2 (en) Image processing system, image processing method, and program
CN111582134A (zh) 证件边沿检测方法、装置、设备和介质
KR100673198B1 (ko) 이미지 입력 시스템
KR102276184B1 (ko) 데이터 추출 장치 및 방법
US10049269B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
US20230132261A1 (en) Unified framework for analysis and recognition of identity documents
US9286480B2 (en) Information processing device, non-transitory computer readable medium, and information processing method
US20220044048A1 (en) System and method to recognise characters from an image
JP3956625B2 (ja) 領域切り出しプログラムおよび装置
US11144777B2 (en) Image processing apparatus, image processing method, and image processing program for clipping images included in a large image
CN113569839B (zh) 证件识别方法、系统、设备及介质
KR102643368B1 (ko) 인공지능 기반의 개인정보 보호를 위한 자동 문서 처리 방법 및 서버
CN114782971A (zh) 一种财务凭证图像识别方法及系统

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant