KR20220160660A - 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체 - Google Patents

텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체 Download PDF

Info

Publication number
KR20220160660A
KR20220160660A KR1020227037762A KR20227037762A KR20220160660A KR 20220160660 A KR20220160660 A KR 20220160660A KR 1020227037762 A KR1020227037762 A KR 1020227037762A KR 20227037762 A KR20227037762 A KR 20227037762A KR 20220160660 A KR20220160660 A KR 20220160660A
Authority
KR
South Korea
Prior art keywords
image
handwritten
pixel
text
content
Prior art date
Application number
KR1020227037762A
Other languages
English (en)
Inventor
칭송 쉬
칭 리
Original Assignee
항저우 글로리티 소프트웨어 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 항저우 글로리티 소프트웨어 리미티드 filed Critical 항저우 글로리티 소프트웨어 리미티드
Publication of KR20220160660A publication Critical patent/KR20220160660A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/2455Discrimination between machine-print, hand-print and cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체를 제공한다. 텍스트 이미지에서 필기 내용을 제거하는 방법은 처리할 텍스트 페이지의 입력 이미지를 획득하는 단계 - 상기 입력 이미지는 필기 영역을 포함하고, 상기 필기 영역은 필기 내용을 포함함 -; 이미지 분할 모델을 이용해 상기 입력 이미지를 식별하여, 상기 필기 내용의 초기 필기 픽셀을 획득하는 단계; 상기 초기 필기 픽셀에 대해 블러링 처리를 수행하여, 필기 픽셀 마스크 영역을 획득하는 단계; 필기 픽셀 마스크 영역을 기반으로 상기 필기 내용을 결정하는 단계; 및 상기 입력 이미지에서 상기 필기 내용을 제거하여, 출력 이미지를 획득하는 단계를 포함한다.

Description

텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체
본 발명은 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체에 관한 것이다.
현재 사용자는 텍스트를 이미지 또는 PDF 등 기타 포맷의 파일로 촬영 및 스캔할 때, 원본 텍스트 상에 현재 사용자 또는 다른 사람의 필기 내용, 예를 들어 비고 문자, 설명 문자, 주석 또는 표기 부호 등의 문자 부호 내용이 이미 존재하는 경우, 이러한 필기 내용도 출력 이미지 또는 파일에 동시에 기록할 수 있다. 사용자가 상기 필기 내용이 필요하지 않거나 필기 내용의 기밀을 유지해야 하는 경우, 관련 필기 내용을 제거하는 것은 일반 사용자에 있어 비교적 어려우며 저장 또는 배포가 용이하지 않다. 또한 사용자가 휴대폰으로 촬영한 텍스트 사진은 종종 촬영 환경의 빛 조사 차이로 인해 텍스트 사진에 음영 등이 생길 수 있다. 곧바로 해당 텍스트 사진을 인쇄하면, 프린터가 텍스트 사진 중의 음영 부분을 그대로 인쇄하여 잉크가 낭비되고 판독에도 영향을 미칠 수 있다.
상술한 결함을 해결하기 위해, 본 발명은 텍스트 이미지에서 필기 내용을 제거하는 방법을 제공한다. 여기에는 처리할 텍스트 페이지의 입력 이미지를 획득하는 단계 - 상기 입력 이미지는 필기 영역을 포함하고, 상기 필기 영역은 필기 내용을 포함함 -; 이미지 분할 모델을 이용해 상기 입력 이미지를 식별하여, 상기 필기 내용의 초기 필기 픽셀을 획득하는 단계; 상기 초기 필기 픽셀에 대해 블러링 처리를 수행하여, 필기 픽셀 마스크 영역을 획득하는 단계; 상기 필기 픽셀 마스크 영역을 기반으로 상기 상기 필기 영역 중의 상기 필기 내용을 결정하는 단계; 및 상기 입력 이미지에서 상기 필기 내용을 제거하여, 출력 이미지를 획득하는 단계가 포함된다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계는 하기 단계를 포함한다.
상기 초기 필기 픽셀의 픽셀값 및 상기 필기 픽셀 마스크 영역의 위치를 기반으로, 상기 입력 이미지에서 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀을 결정한다. 상기 입력 이미지 중의 상기 필기 픽셀 마스크 영역 내용을 제거하여, 중간 출력 이미지를 획득한다.
상기 중간 출력 이미지에 대해 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀 복원을 수행하여, 상기 출력 이미지를 획득한다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계는 하기 단계를 포함한다.
상기 초기 필기 픽셀의 픽셀값 및 상기 필기 픽셀 마스크 영역의 위치를 기반으로, 상기 입력 이미지에서 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀을 결정한다.
상기 필기 픽셀 마스크 영역 중의 비필기 픽셀 및 상기 필기 픽셀 마스크 영역을 기반으로 상기 입력 이미지 중의 상기 필기 내용을 제거하여, 상기 출력 이미지를 획득한다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계는, 상기 입력 이미지로부터 상기 필기 내용을 절단 제거하여 중간 출력 이미지를 획득하는 단계; 및 상기 중간 출력 이미지에 대해 이진화 처리를 수행하여, 상기 출력 이미지를 획득하는 단계를 포함한다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 입력 이미지에서 상기 필기 내용을 제거하여 상기 출력 이미지를 획득하는 단계는, 대체 픽셀을 획득하는 단계; 및 상기 대체 픽셀을 이용해 상기 필기 내용의 픽셀을 대체하여, 상기 입력 이미지로부터 상기 필기 내용을 제거하여 상기 출력 이미지를 획득하는 단계를 포함한다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 대체 픽셀을 이용해 상기 필기 내용의 픽셀을 대체하여, 상기 입력 이미지로부터 상기 필기 내용을 제거하여 상기 출력 이미지를 획득하는 단계는, 상기 대체 픽셀을 이용해 상기 필기 내용의 픽셀을 대체하여, 상기 입력 이미지로부터 상기 필기 내용을 제거하여 중간 출력 이미지를 획득하는 단계; 및 상기 중간 출력 이미지에 대해 이진화 처리를 수행하여, 상기 출력 이미지를 획득하는 단계를 포함한다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 대체 픽셀은 상기 필기 내용의 픽셀을 기반으로 픽셀 인접 영역 기반으로 계산한 이미지 복원 알고리즘을 통해 획득하는 것이다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 대체 픽셀을 획득하는 단계는 영역 식별 모델을 이용해 상기 입력 이미지를 식별하여 상기 필기 영역을 획득하는 단계를 더 포함한다. 상기 대체 픽셀은 상기 필기 영역에서 상기 필기 내용의 픽셀을 제외한 어느 하나의 픽셀이거나; 또는 상기 대체 픽셀은 상기 필기 영역에서 상기 필기 내용의 픽셀을 제외한 모든 픽셀의 픽셀값의 평균값이다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 처리할 텍스트 페이지의 입력 이미지를 획득하는 단계는, 상기 처리할 텍스트 페이지의 원본 이미지를 획득하는 단계 - 상기 원본 이미지는 처리할 텍스트 영역을 포함함 - ; 상기 원본 이미지에 대해 에지 검출을 수행하여, 상기 원본 이미지 중의 상기 처리할 텍스트 영역을 결정하는 단계; 및 상기 처리할 텍스트 영역에 대해 정규화 처리를 수행하여 상기 입력 이미지를 획득하는 단계를 포함한다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 상기 이미지 분할 모델은 사전 학습된 상기 입력 이미지를 분할하는 U-Net 모델이다.
선택적으로, 본 발명에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서, 가우시안 필터 함수를 통해 상기 초기 필기 픽셀에 대해 블러링 처리를 수행하고, 상기 초기 필기 픽셀의 영역을 확대하여, 상기 필기 픽셀 마스크 영역을 획득한다.
또한 본 발명은 텍스트 이미지에서 필기 내용을 제거하는 장치를 더 제공한다. 여기에는 컴퓨터 판독 가능 명령을 비일시적으로 저장하는 데 사용되는 메모리; 및 상기 컴퓨터 판독 가능 명령을 실행하는 데 사용되는 프로세서가 포함된다. 상기 컴퓨터 판독 가능 명령이 상기 프로세서에 의해 실행되면 상술한 어느 하나의 실시예에 따른 텍스트 이미지에서 필기 내용을 제거하는 방법이 실행된다.
또한 본 발명은 컴퓨터 판독 가능 명령을 비일시적으로 저장하는 저장 매체를 더 제공한다. 상기 컴퓨터 판독 가능 명령이 컴퓨터에 의해 실행되면 상술한 어느 하나의 실시예에 따른 텍스트 이미지에서 필기 내용을 제거하는 방법을 실행할 수 있다.
본 발명 실시예의 기술적 해결책을 보다 명확하게 설명하기 위하여, 이하에서는 실시예의 첨부 도면을 간략히 소개한다. 이하의 설명에서 첨부 도면은 본 발명을 제한하기보다는 본 발명의 일부 실시예에 관한 것일 뿐이다.
도 1은 본 발명 일 실시예에 따른 텍스트 이미지에서 필기 내용을 제거하는 방법의 흐름도이다.
도 2a는 본 발명 일 실시예에 따른 원본 이미지의 개략도이다.
도 2b는 본 발명 일 실시예에 따른 출력 이미지의 개략도이다.
도 3은 본 발명 일 실시예에 따른 텍스트 이미지에서 필기 내용을 제거하는 장치의 블록도이다.
도 4는 본 발명 일 실시예에 따른 저장 매체의 개략도이다.
도 5는 본 발명 일 실시예에 따른 하드웨어 환경의 개략도이다.
본 발명 실시예의 목적, 기술적 해결책 및 이점을 보다 명확하게 하기 위하여, 본 발명 실시예의 첨부 도면을 참조하여 본 발명 실시예의 기술적 해결책을 명확하고 완전하게 설명한다. 설명된 실시예는 본 발명의 전부가 아닌, 일부 실시예이다. 본 발명의 설명된 실시예를 기반으로, 본 기술 분야에서 통상의 기술자가 창의적인 노력 없이 획득한 다른 모든 실시예는 본 발명의 보호 범위에 속한다.
달리 정의되지 않는 한, 본 발명에 사용된 기술적 또는 과학적 용어는 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 이해하는 바와 같은 통상적인 의미를 가져야 한다. 본 발명에 사용된 "제1", "제2" 및 이와 유사한 용어는 어떠한 순서, 수량 또는 중요도를 나타내지 않으며, 단지 상이한 구성요소를 구별하기 위해 사용된다. "포함" 또는 "포괄" 등 이와 유사한 용어는 해당 용어 앞에 나오는 요소 또는 사물이 해당 용어 뒤에 나열된 요소 또는 사물 및 그 등가물을 포함하되, 다른 요소 또는 사물을 배제하지 않음을 의미한다. "연결" 또는 "상호 연결" 등 이와 유사한 용어는 물리적 또는 기계적 연결에 국한되지 않으며 직접적이든 간접적이든 관계 없이 전기적 연결을 포함할 수 있다. "상", "하", "좌", "우" 등은 상대적인 위치 관계를 나타낼 때만 사용된다. 설명 대상의 절대적 위치가 변경되면 그에 따라 해당 상대적인 위치 관계도 변경될 수 있다.
본 발명의 실시예에 대한 하기 설명을 명확하고 간결하게 유지하기 위해, 본 발명은 일부 공지된 기능 및 공지된 부재에 대한 상세한 설명을 생략한다.
본 발명의 적어도 일 실시예는 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체를 제공한다. 텍스트 이미지에서 필기 내용을 제거하는 방법은 처리할 텍스트 페이지의 입력 이미지를 획득하는 단계 - 입력 이미지는 필기 영역을 포함하고, 필기 영역은 필기 내용을 포함함 -; 이미지 분할 모델을 이용해 상기 입력 이미지를 식별하여, 상기 필기 내용의 초기 필기 픽셀을 획득하는 단계; 상기 초기 필기 픽셀에 대해 블러링 처리를 수행하여, 필기 픽셀 마스크 영역을 획득하는 단계; 필기 픽셀 마스크 영역을 기반으로 상기 필기 내용을 결정하는 단계; 및 입력 이미지에서 필기 내용을 제거하여, 출력 이미지를 획득하는 단계를 포함한다.
해당 텍스트 이미지에서 필기 내용을 제거하는 방법은 입력 이미지에서 필기 영역 내의 필기 내용을 효과적으로 제거하여 인쇄 내용만 포함된 이미지나 파일을 출력하기 용이하게 한다. 또한 텍스트 이미지에서 필기 내용을 제거하는 방법은 입력 이미지를 인쇄하기 용이한 형태로 변환하여 사용자가 입력 이미지를 종이 형태로 인쇄하여 저장하거나 배포할 수 있도록 할 수도 있다.
이하에서는 첨부 도면을 참조하여 본 발명의 실시예를 상세히 설명하나, 본 발명은 이러한 구체적인 실시예에 한정되지 않는다.
도 1은 본 발명의 적어도 일 실시예에 따른 텍스트 이미지에서 필기 내용을 제거하는 방법의 흐름도이다. 도 2a는 본 발명의 적어도 일 실시예에 따른 원본 이미지의 개략도이다. 도 2b는 본 발명의 적어도 일 실시예에 따른 출력 이미지의 개략도이다.
예를 들어, 도 1에 도시된 바와 같이, 본 발명 실시예에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법은 단계 S10 내지 S14를 포함한다.
도 1에 도시된 바와 같이, 먼저 텍스트 이미지에서 필기 내용을 제거하는 방법은 단계 S10에서 처리할 텍스트 페이지의 입력 이미지를 획득한다.
예를 들어, 단계 S10에서 입력 이미지는 필기 영역을 포함하고, 필기 영역은 필기 내용을 포함한다. 입력 이미지는 필기 내용을 포함하는 임의 이미지일 수 있다.
예를 들어, 입력 이미지는 이미지 수집 장치(예를 들어, 디지털 카메라 또는 휴대폰 등)를 통해 촬영한 이미지일 수 있다. 입력 이미지는 그레이스케일 이미지일 수 있으며, 컬러 이미지일 수도 있다. 입력 이미지는 시각화 방식으로 처리할 텍스트 페이지를 제시한 형태를 의미한다. 예를 들어 처리할 텍스트 페이지의 사진 등이 있다.
예를 들어, 필기 영역은 고정된 형태가 없으며 필기 영역에 따라 결정된다. 즉, 필기 내용이 있는 영역이 바로 필기 영역이다. 필기 영역은 규칙적 형상(예를 들어, 직사각형 등)일 수 있으며, 불규칙적 형상일 수도 있다. 필기 영역은 패딩 영역, 필기의 초안 또는 기타 필기 표시의 영역 등을 포함할 수 있다.
예를 들어, 입력 이미지는 텍스트 인쇄 영역도 포함하며, 텍스트 인쇄 영역은 인쇄 내용을 포함한다. 텍스트 인쇄 영역의 형상은 규칙적 형상(예를 들어, 직사각형)일 수 있으며, 불규칙적 형상일 수도 있다. 본 발명의 실시예에 있어서, 각 필기 영역의 형상이 직사각형이고 각 텍스트 인쇄 영역의 형상이 직사각형인 경우를 예로 들어 설명한다. 본 발명은 이에 한정되지 않는다.
예를 들어, 처리할 텍스트 페이지는 서적, 신문, 간행물, 영수증, 도표, 계약서 등을 포함할 수 있다. 서적, 신문 및 간행물은 문장 또는 도안이 있는 다양한 파일 페이지가 포함된다. 영수증은 다양한 인보이스, 송장, 택배 영수증 등을 포함한다. 도표는 연말정산서, 인사기록부, 신청서 등과 같은 다양한 유형의 도표일 수 있다. 계약서는 다양한 형식의 계약 텍스트 페이지 등을 포함할 수 있다. 본 발명은 처리할 텍스트 페이지의 유형을 구체적으로 한정하지 않는다.
예를 들어, 처리할 텍스트 페이지는 종이 형식의 텍스트일 수 있으며, 전자 형식의 텍스트일 수도 있다. 예를 들어, 처리할 텍스트 페이지가 영수증, 예를 들어 택배 영수증인 경우, 인쇄 내용은 각 항목을 포함하는 표제 텍스트를 포함할 수 있다. 필기 내용은 사용자가 기입하는 정보, 예를 들어 성명, 주소, 전화 등(이때, 정보는 사용자가 기입하는 개인 정보이며, 범용 정보가 아님)을 포함할 수 있다. 처리할 텍스트 페이지가 문장류 텍스트인 경우, 인쇄 내용은 문장 내용일 수 있으며, 필기 내용은 사용자의 비고 또는 기타 필기 표시 등일 수 있다. 처리할 텍스트 페이지가 인사기록부와 같은 폼인 경우, 인쇄 내용은 "성명", "성별", "민족", "직업 이력" 등 항목 표제 문자를 포함할 수 있다. 필기 내용은 사용자(예를 들어, 직원 등)가 인사기록부에 기입하는 사용자의 성명, 성별(남 또는 여), 민족 및 직업 경력 등 필기 정보를 포함할 수 있다. 인쇄 내용은 다양한 부호, 도형 등을 더 포함할 수 있다.
예를 들어, 처리할 텍스트 페이지의 형상은 직사각형 등 형상일 수 있다. 입력 이미지의 형상은 인쇄가 용이하도록 규칙적 형상(예를 들어, 평행사변형, 직사각형 등)일 수 있다. 그러나 본 발명은 이에 한정되지 않는다. 일부 실시예에 있어서, 입력 이미지는 불규칙 형상일 수도 있다.
예를 들어, 이미지 수집 장치가 이미지를 수집할 때 변형이 일어날 수 있으므로, 입력 이미지의 크기와 처리할 텍스트 페이지의 크기가 다를 수 있다. 그러나 본 발명은 이에 한정되지 않는다. 입력 이미지의 크기와 처리할 텍스트 페이지의 크기는 동일할 수도 있다.
예를 들어, 처리할 텍스트 페이지는 인쇄 내용과 필기 내용을 포함한다. 인쇄 내용은 인쇄하여 획득한 내용이며, 필기 내용은 사용자가 필기한 내용이다. 필기 내용은 필기 부호를 포함할 수 있다.
"인쇄 내용"은 입력 장치를 통해 전자 디바이스 상에 입력한 문자, 부호, 도형 등 내용을 나타낸다. 이 뿐만 아니라 일부 실시예에서 처리할 텍스트 페이지가 예를 들어 메모 등의 텍스트인 경우, 메모 내용은 사용자가 필기한 것일 수도 있다. 이때 인쇄 내용은 필기용 빈 메모장 페이지 상의 인쇄 내용, 예를 들어 가로줄 등이다.
예를 들어, 인쇄 내용은 예를 들어 중국어(예를 들어 한자 또는 병음), 영어, 일어, 불어, 한글 등과 같은 다양한 언어의 문자를 포함할 수 있다. 또한 인쇄 내용은 숫자, 각종 부호(예를 들어, 체크 부호, 삽입 부호 및 각종 연산 부호 등)와 각종 도형 등을 포함할 수도 있다. 필기 내용은 다양한 언어의 문자, 숫자, 각종 부호 및 각종 도형 등을 포함할 수도 있다.
예를 들어, 도 2a에 도시된 예시에 있어서, 처리할 텍스트 페이지(100)는 폼이다. 4개의 경계선(직선 101A 내지 101D)으로 둘러싸인 영역은 처리할 텍스트 페이지에 대응하는 처리할 텍스트 영역(100)을 나타낸다. 상기 처리할 텍스트 영역(100)에서 인쇄 영역은 폼 영역을 포함한다. 인쇄 영역은 예를 들어 성명, 생일 등과 같은 각 항목의 문자를 포함할 수 있다. 인쇄 내용은 처리할 텍스트 영역(100)에서 우측 상단의 logo 도형(마스킹 처리함) 등을 포함할 수도 있다. 필기 영역은 필기 정보 영역을 포함한다. 필기 내용은 사용자가 필기한 개인 정보, 예를 들어 사용자가 필기한 성명, 생일 정보, 건강 정보, 체크 부호 등을 포함할 수 있다.
예를 들어, 입력 이미지는 복수의 필기 내용과 복수의 인쇄 내용을 포함할 수 있다. 복수의 필기 내용은 서로 이격되며, 복수의 인쇄 내용도 서로 이격된다. 예를 들어, 복수의 필기 내용 중의 일부 필기 내용은 동일할 수 있으며(즉, 필기 내용의 부호가 동일하나, 필기 내용의 구체적인 형태가 상이함), 복수의 인쇄 내용 중의 일부 인쇄 내용도 동일할 수 있다. 본 발명은 이에 한정되지 않는다. 복수의 필기 내용은 서로 상이할 수도 있고, 복수의 인쇄 내용도 서로 상이할 수 있다.
예를 들어, 일부 실시예에 있어서, 단계 S10은, 처리할 텍스트 페이지의 원본 이미지를 획득하는 단계 - 원본 이미지는 처리할 텍스트 영역을 포함함 - ; 원본 이미지에 대해 에지 검출을 수행하여, 원본 이미지 중의 처리할 텍스트 영역을 결정하는 단계; 및 처리할 텍스트 영역에 대해 정규화 처리를 수행하여 입력 이미지를 획득하는 단계를 포함할 수 있다.
예를 들어, 신경망 또는 OpenCV 기반의 에지 검출 알고리즘 등 방법을 채택해 원본 이미지에 대해 에지 검출을 수행함으로써 처리할 텍스트 영역을 결정할 수 있다. 예를 들어, OpenCV는 오픈 소스 컴퓨터 비전 라이브러리이다. OpenCV 기반의 에지 검출 알고리즘은 Sobel, Scarry, Canny, Laplacian, Prewitt, Marr-Hildresh, scharr 등 다양한 알고리즘을 포함한다.
예를 들어, 원본 이미지에 대해 에지 검출을 수행하여 원본 이미지 중의 처리할 텍스트 영역을 결정하는 단계는, 원본 이미지를 처리하여 원본 이미지 중 그레이스케일 윤곽의 선도(line drawing)를 획득하는 단계 - 선도는 복수의 선을 포함함 - ; 선도에서 유사한 선을 합쳐 복수의 초기 병합 선을 획득하고, 복수의 초기 병합 선을 기반으로 경계 행렬을 결정하는 단계; 복수의 초기 병합 선에서 유사한 선을 합쳐 타깃 선을 획득하고, 합치지 않은 초기 병합 선도 타깃 선으로 사용함으로써, 복수의 타깃 선을 획득하는 단계; 경계 행렬을 기반으로, 복수의 타깃 선으로부터 복수의 기준 경계선을 결정하는 단계; 사전 학습된 경계선 영역 식별 모델을 통해 원본 이미지를 처리하여, 원본 이미지 중 처리할 텍스트 페이지의 복수의 경계선 영역을 획득하는 단계; 각 경계선 영역에 대해, 복수의 기준 경계선 중 해당 경계선 영역에 대응하는 타깃 경계선을 결정하는 단계; 및 결정한 복수의 타깃 경계선을 기반으로 원본 이미지 중 처리할 텍스트 페이지의 에지를 결정하는 단계를 포함할 수 있다.
예를 들어, 일부 실시예에 있어서, 원본 이미지를 처리하여 원본 이미지 중 그레이스케일 윤곽의 선도를 획득하는 단계는, OpenCV 기반의 에지 검출 알고리즘을 통해 원본 이미지를 처리하고, 원본 이미지 중 그레이스케일 윤곽의 선도를 획득하는 단계를 포함한다.
예를 들어, 선도에서 유사한 선을 병합하고 복수의 초기 병합 선을 획득하는 단계는, 선도 중의 긴 선을 획득하는 단계 - 긴 선은 길이가 제1 소정 임계값을 초과하는 선임 - ; 긴 선으로부터 복수 세트의 제1 유형 선을 획득하는 단계 - 제1 유형 선은 적어도 2개의 순차적으로 인접한 긴 선을 포함하고, 임의 인접한 2개의 긴 선 사이의 협각은 모두 제2 소정 임계값보다 작음 - ; 및 각 세트의 제1 유형 선에 대해, 해당 세트의 제1 유형 선 중의 각 긴 선을 순차적으로 합쳐 하나의 초기 병합 선을 획득하는 단계를 포함한다.
예를 들어, 경계 행렬은 이하 방식에 따라 결정된다. 즉, 복수의 초기 병합 선 및 긴 선에서 합치지 않은 선을 다시 제도한다. 다시 제도한 모든 선에서 픽셀 포인트의 위치 정보를 전체 원본 이미지의 행렬에 대응시킨다. 원본 이미지의 행렬 중 이러한 선의 픽셀 포인트가 소재한 위치의 값을 제1 값으로 설정한다. 이러한 선 이외의 픽셀 포인트가 소재한 위치의 값은 제2 값으로 설정하여, 경계 행렬을 형성한다.
예를 들어, 복수의 초기 병합 선에서 유사한 선을 합쳐 타깃 선을 획득하는 단계는, 복수의 초기 병합 선으로부터 복수 세트의 제2 유형 선을 획득하는 단계 - 제2 유형 선은 적어도 2개의 순차적으로 인접한 초기 병합 선을 포함하고, 임의 인접한 2개의 초기 병합 선 사이의 협각은 모두 제3 소정 임계값보다 작음 - ; 및 각 세트의 제2 유형 선에 대해, 해당 세트의 제2 유형 선 중의 각 초기 병합 선을 순차적으로 합쳐 하나의 타깃 선을 획득하는 단계를 포함한다.
예를 들어, 제1 소정 임계값은 2개 픽셀의 길이일 수 있다. 제2 소정 임계값과 제3 소정 임계값은 15도일 수 있다. 제1 소정 임계값, 제2 소정 임계값 및 제3 소정 임계값은 실제 응용 수요에 따라 설치할 수 있음에 유의한다.
예를 들어, 경계 행렬을 기반으로 복수의 타깃 선으로부터 복수의 기준 경계선을 결정하는 단계는 하기 단계를 포함한다. 즉, 각 타깃 선에 대해 해당 타깃 선을 연장한다. 연장한 해당 타깃 선을 기반으로 하나의 선 행렬을 결정한 후, 해당 선 행렬과 경계 행렬의 비교한다. 연장된 해당 타깃 선 상에서 경계 행렬에 속하는 픽셀 포인트의 개수를 계산하여, 해당 타깃 선의 점수로 사용한다. 즉, 해당 선 행렬과 경계 행렬을 비교하여 얼마나 많은 픽셀 포인트가 경계 행렬 내면에 떨어졌는지 판단한다. 즉, 2개 행렬 중 얼마나 많은 동일 위치의 픽셀 포인트가 동일한 제1 값, 예를 들어 255를 갖는지 판단하여 점수를 계산한다. 여기에서 선 행렬과 경계 행렬의 크기는 동일하다. 각 타깃 선의 점수를 기반으로 복수의 타깃 선으로부터 복수의 기준 경계선을 결정한다. 점수가 우수한 타깃 선의 수량은 복수개일 수 있음에 유의한다. 따라서 각 타깃 선의 점수를 기반으로, 복수의 타깃 선으로부터 점수가 가장 우수한 복수의 타깃 선을 기준 경계선으로 결정한다.
예를 들어, 선 행렬은 하기 방식에 따라 결정한다. 즉, 연장된 타깃 선 또는 직선을 다시 제도한다. 다시 제도한 선 중에서 픽셀 포인트의 위치 정보를 전체 원본 이미지의 행렬에 대응시킨다. 원본 이미지의 행렬 중 선의 픽셀 포인트가 소재한 위치의 값을 제1 값으로 설정하고, 선 이외의 픽셀 포인트가 소재한 위치의 값은 제2 값으로 설정하여, 선 행렬을 형성한다.
예를 들어, 각 경계선 영역에 대해, 복수의 기준 경계선으로부터 해당 경계선 영역에 대응하는 타깃 경계선을 결정하는 단계는 하기 단계를 포함한다. 즉, 각 기준 경계선의 기울기를 계산한다. 각 경계선 영역에 대해 허프(Hough) 변환을 이용해 해당 경계선 영역을 복수의 직선으로 변환하고, 복수의 직선의 평균 기울기를 계산한다. 그 다음 복수의 기준 경계선에 기울기와 평균 기울기가 매칭된는 기준 경계선이 존재하는지 판단한다. 존재하는 경우, 해당 기준 경계선을 해당 경계선 영역에 대응하는 타깃 경계선으로 결정한다. 복수의 기준 경계선에 기울기와 평균 기울기가 매칭되는 기준 경계선이 존재하지 않는다고 판단되는 경우, 해당 경계선 영역을 변환하여 획득한 각 직선에 대해, 해당 직선이 형성하는 선 행렬과 경계 행렬을 비교한다. 해당 직선 상에서 경계 행렬에 속하는 픽셀 포인트의 개수를 계산하여 해당 직선의 점수로 사용한다. 점수가 가장 좋은 직선을 해당 경계선 영역에 대응하는 타깃 경계선으로 결정한다. 여기에서 선 행렬과 경계 행렬의 크기는 동일하다. 점수가 가장 우수한 직선이 복수개인 경우, 정렬 알고리즘에 따라 그 중 가장 먼저 나타난 직선을 가장 바람직한 경계선으로 사용함에 유의한다.
예를 들어, 경계선 영역 식별 모델은 신경망 기반의 모델이다. 경계선 영역 식별 모델은 머신러닝 학습에 의해 구축될 수 있다.
예를 들어, 원본 이미지에 대해 에지 검출을 수행한 후 복수의 타깃 경계선(예를 들어, 4개의 타깃 경계선)을 결정할 수 있다. 처리할 텍스트 영역은 복수의 타깃 경계선에서 결정한다. 예를 들어, 복수의 타깃 경계선의 복수의 교차점과 복수의 타깃 경계선을 기반으로 처리할 텍스트 영역을 결정할 수 있다. 각 2개의 인접한 타깃 경계선이 교차하여 하나의 차점을 획득하며, 복수의 교차점과 복수의 타깃 경계선은 함께 원본 이미지 중 처리할 텍스트가 소재한 영역을 한정한다. 예를 들어, 도 2a에 도시된 예시에 있어서, 처리할 텍스트 영역은 4개의 타깃 경계선으로 둘러싸인 텍스트 영역일 수 있다. 4개의 타깃 경계선은 모두 직선이다. 4개의 타깃 경계선은 각각 제1 타깃 경계선(101A), 제2 타깃 경계선(101B), 제3 타깃 경계선(101C) 및 제4 타깃 경계선(101D)이다. 처리할 텍스트 영역 이외에, 원본 이미지는 비텍스트 영역을 더 포함할 수 있다. 예를 들어, 도 2a에서 4개의 경계선으로 둘러싸인 영역 이외의 영역이다.
예를 들어, 일부 실시예에 있어서, 처리할 텍스트 영역에 대해 정규화 처리를 수행하여 입력 이미지를 획득하는 단계는, 처리할 텍스트 영역에 대해 투영 변환을 수행하여, 처리할 텍스트 영역의 정면도를 획득하는 단계를 포함한다. 해당 정면도는 입력 이미지이다. 투영 변환(Perspective Transformation)은 사진을 하나의 새로운 뷰잉 평면(Viewing Plane)에 투영시키는 기술로, 투영 맵핑(Projective Mapping)으로 불리기도 한다. 촬영하여 획득한 원본 이미지에서 처리할 텍스트의 실제 형상은 원본 이미지에서 변형되어 기하학적 왜곡이 발생한다. 도 2a에 도시된 원본 이미지와 같이, 처리할 텍스트(즉, 폼)의 형상은 원래 직사각형이다. 그러나 원본 이미지 중의 처리할 텍스트의 형상이 변형되어 불규칙한 다각형으로 변형되었다. 따라서 원본 이미지 중의 처리할 텍스트 영역에 대해 투여 변환을 수행한다. 처리할 텍스트 영역을 불규칙한 다각형에서 직사각형 또는 평행사변형 등으로 변환할 수 있다. 즉, 처리할 텍스트 영역을 정규화하여 기하학적 왜곡의 영향을 제거하고 원본 이미지 중 처리할 텍스트의 정면도를 획득한다. 투영 변환은 공간 투영 환산 좌표를 기반으로 처리할 텍스트 영역 중의 픽셀을 처리하여 처리할 텍스트의 정면도를 획득할 수 있다. 이는 여기에서 반복하여 설명하지 않기로 한다.
다른 일부 실시예에 있어서, 처리할 텍스트 영역에 대해 정규화 처리를 수행하지 않고, 곧바로 원본 이미지로부터 처리할 텍스트 영역을 절단하여, 독립된 처리할 텍스트 영역의 이미지를 획득할 수도 있다. 상기 독립된 처리할 텍스트 영역의 이미지는 입력 이미지이다.
예를 들어, 원본 이미지는 이미지 수집 장치에 의해 직접 수집된 이미지일 수 있다. 또한 이미지 수집 장치에 의해 직접 수집된 이미지를 사전 처리한 후 획득한 이미지일 수도 있다. 원본 이미지는 그레이스케일 이미지일 수 있으며, 컬러 이미지일 수도 있다. 예를 들어, 원본 이미지의 데이터 품질, 데이터 불균형 등이 텍스트 이미지에서 필기 내용을 제거하는 데 미치는 영향을 방지하기 위해, 원본 이미지를 처리하기 전에, 본 발명 실시예에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법은, 원본 이미지를 사전 처리하는 작업을 더 포함할 수 있다. 사전처리는 원본 이미지에서 무관한 정보 또는 노이즈 정보를 삭제하여, 원본 이미지에 대한 처리를 더욱 용이하게 만들 수 있다. 사전처리는 예를 들어 이미지 수집 장치에 의해 직접 수집된 이미지에 대한 줌(zoom), 절단, 감마(Gamma) 보정, 이미지 향상 또는 노이즈 저감 필터링 등 처리를 포함할 수 있다.
주의할 점은 일부 실시예에 있어서 원본 이미지가 입력 이미지로 사용될 수 있다는 것이다. 이 경우, 예를 들어 직접 원본 이미지를 식별하여 원본 이미지 중의 필기 내용을 결정한 후, 원본 이미지 중의 필기 내용을 제거하여 출력 이미지를 획득한다. 또는 직접 원본 이미지를 식별하여 원본 이미지 중의 필기 내용을 결정한 후 원본 이미지 중의 필기 내용을 제거하여 중간 출력 이미지를 획득한다. 그 후 중간 출력 이미지에 대해 에지 검출을 수행하여 중간 출력 이미지 중의 처리할 텍스트 영역을 결정할 수 있다. 처리할 텍스트 영역에 대해 정규화 처리를 수행하여 출력 이미지를 획득한다. 즉, 본 발명의 일부 실시예에 있어서, 먼저 원본 이미지 중의 필기 내용을 제거하여 중간 출력 이미지를 획득한 다음 중간 출력 이미지에 대해 에지 검출 및 정규화 처리를 수행할 수 있다.
이어서 도 1에 도시된 바와 같이, 단계 S11에 있어서, 이미지 분할 모델을 이용해 상기 입력 이미지를 식별하여 상기 필기 내용의 초기 필기 픽셀을 획득한다.
예를 들어, 이미지 분할 모델은 입력 이미지에 대해 영역 식별(또는 분할)을 수행하는 모델을 나타낸다. 이미지 분할 모델은 머신러닝 기술(예를 들어, 컨볼루션 신경망 기술)을 채택해 구현하며 예를 들어 범용 컴퓨팅 장치나 전용 컴퓨팅 장치 상에서 실행된다. 상기 이미지 분할 모델은 사전 학습된 모델이다. 예를 들어, 이미지 분할 모델에 적용되는 신경망은 심층 컨볼루션 신경망, 마스크 영역 컨볼루션 신경망(Mask-RCNN), 심층 레지듀얼 망(deep residual network), 주의력 모델 등을 포함하는 기타 신경망 모델을 통해 동일한 기능을 구현할 수도 있다. 이는 여기에서 한정하지 않는다.
예를 들어, 이미지 분할 모델을 이용해 상기 입력 이미지를 식별하는 것은 U-Net 모델을 채택한다. 이는 개선된 FCN(Fully Convolutional Network, 완전 컨볼루션 신경망) 구조로, FCN의 이미지 시맨틱 분할 개념을 사용한다. 즉, 컨볼루션 레이어, 풀링 레이어를 이용해 특징 추출을 수행한 다음 디컨볼루션 레이어를 이용해 이미지 크기를 복원한다. U-Net망 모델은 이미지 분할 성능이 비교적 우수한 일종의 모델이다. 딥러닝은 분류 문제를 잘 해결함, 딥러닝의 이러한 특징을 이용하여 이미지 분할을 수행하는 것의 실질은 이미지 중의 각 픽셀 포인트를 분류하는 것이다. 최종적으로 상이한 클래스의 포인트는 상이한 채널을 이용해 표시하여, 타깃 영역 중의 특징 정보를 분류 표시하는 효과를 낼 수 있다. U-Net 모델을 통해 입력 이미지에서 상기 필기 내용의 초기 필기 픽셀을 결정할 수 있다. 마찬가지로 예를 들어 Mask-RCNN 등 다른 신경망 모델을 통해서도 상기 필기 내용의 초기 필기 픽셀을 결정할 수 있다.
이어서 도 1에 도시된 바와 같이, 단계 S12에서 상기 초기 필기 픽셀에 대해 블러링 처리를 수행하여 필기 픽셀 마스크 영역을 획득한다. 이미지 분할 모델을 통해 상기 입력 이미지를 식별한다. 획득한 초기 필기 픽셀은 전체 필기 픽셀이 아닐 수도 있다. 그러나 나머지 누락된 필기 픽셀은 일반적으로 모두 상기 초기 필기 픽셀에 가깝다. 따라서 상기 초기 필기 픽셀에 대해 블러링 처리를 수행하고 필기 픽셀 영역을 확대하여 필기 픽셀 마스크 영역을 획득해야 한다. 상기 필기 픽셀 마스크 영역은 기본적으로 전체 필기 픽셀을 포함한다.
예를 들어, OpenCV 기반의 가우시안 필터(Gaussian Blur) 함수를 통해 초기 필기 픽셀에 대해 가우시안 블러링 처리를 수행하여 초기 필기 픽셀 영역을 확대한다. 따라서 필기 픽셀 마스크 영역을 획득한다. 가우시안 필터는 입력 배열의 각 포인트와 입력된 가우시안 필터 템플릿에 대해 컨볼루션 계산을 실행한 후 이러한 결과를 필터링된 출력 배열로 구성하는 것이다. 이는 초기 필기 픽셀의 이미지에 대해 가중 평균을 수행하는 과정이며, 각 픽셀 포인트의 값은 모두 그 자체 및 인접 영역 내의 다른 픽셀값이 가중 평균되어 획득된다. 가우시안 블러링 처리를 수행한 후, 필기 픽셀 이미지가 블러링되나 그 영역은 확대된다. 예를 들어, 다른 임의 블러링 처리 기술을 채택해 초기 필기 픽셀에 대해 블러링 처리를 수행할 수도 있다. 이는 여기에서 한정하지 않는다.
이어서 도 1에 도시된 바와 같이, 단계 S13에서 필기 픽셀 마스크 영역을 기반으로 상기 필기 내용을 결정한다. 필기 픽셀 마스크 영역을 기반으로 초기 필기 픽셀을 결합하여 필기 내용의 전체 필기 픽셀을 결정함으로써 필기 내용을 결정한다.
이어서 도 1에 도시된 바와 같이, 단계 S14에서 상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득한다.
예를 들어, 본 발명의 비교적 바람직한 제1 실시예에 있어서, 단계 S12에서 필기 픽셀 마스크 영역을 획득한 후, 입력 이미지에서 필기 픽셀 마스크 영역을 결정할 수 있다. 이이서 입력 이미지 중 상응하는 위치의 영역으로 옮겨 비필기 픽셀을 결정한다. 상기 초기 필기 픽셀의 픽셀값을 기반으로, 상기 입력 이미지 중 필기 픽셀 마스크 영역 위치에 대응하는 상응하는 영역에서 픽셀값 차이가 비교적 큰 다른 픽셀을 찾고 이를 비필기 픽셀로 결정한다. 예를 들어 픽셀 차이값의 임계값을 설정할 수 있다. 영역 내에 픽셀 차이값이 임계값 범위 이외에 있는 픽셀이 있는 경우, 이를 비필기 픽셀로 결정한다.
이어서 상기 입력 이미지 중의 상기 필기 픽셀 마스크 영역 내용을 제거하여 중간 출력 이미지를 획득한다.
예를 들어, OpenCV 기반의 inpaint 함수를 통해 필기 픽셀 마스크 영역 내용을 제거할 수 있다. OpenCV 기반의 inpaint 함수는 영역 인접 영역을 사용하여 이미지에서 선택 영역을 복원한다. 즉, 상기 입력 이미지 중 필기 픽셀 마스크 영역 위치에 대응하는 상응하는 영역 중의 픽셀을 영역 인접 픽셀을 사용해 복원한다. 따라서 상기 입력 이미지 중의 상기 필기 픽셀 마스크 영역 내용을 제거하는 효과를 구현하고 중간 출력 이미지를 획득한다.
이어서 상기 중간 출력 이미지에 대해 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀 복원을 수행하여, 상기 출력 이미지를 획득한다.
예를 들어, 입력 이미지 중 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀의 픽셀값을 획득하고, 직접 상기 중간 출력 이미지 중 상응하는 위치 지점의 픽셀을 대체한다. 따라서 해당 위치의 비필기 픽셀에 대한 복원을 완료한다. 최종적으로 상기 출력 이미지를 획득한다.
예를 들어, 본 발명의 비교적 바람직한 다른 실시예에 있어서, 단계 S12에서 필기 픽셀 마스크 영역을 획득한 후, 입력 이미지에서 필기 픽셀 마스크 영역을 결정할 수 있다. 이이서 입력 이미지 중 상응하는 위치의 영역으로 옮겨 비필기 픽셀을 결정한다. 상기 초기 필기 픽셀의 픽셀값을 기반으로, 상기 입력 이미지 중 필기 픽셀 마스크 영역 위치에 대응하는 상응하는 영역에서 픽셀값 차이가 비교적 큰 다른 픽셀을 찾고 이를 비필기 픽셀로 결정한다. 예를 들어 픽셀 차이값의 임계값을 설정할 수 있다. 영역 내에 픽셀 차이값이 임계값 범위 이외에 있는 픽셀이 있는 경우, 이를 비필기 픽셀로 결정한다.
이어서 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀 및 상기 필기 픽셀 마스크 영역을 기반으로 상기 입력 이미지 중의 상기 필기 내용을 제거하여, 상기 출력 이미지를 획득한다. 즉, 상기 필기 픽셀 마스크 영역에서 비필기 픽셀을 배제하여, 다른 부분의 픽셀을 제거한다. 따라서 비필기 픽셀이 잘못 제거되지 않도록 보존하며, 최종적으로 상기 출력 이미지를 획득한다.
예를 들어, OpenCV 기반의 inpaint 함수를 통해 비필기 픽셀의 필기 픽셀 마스크 영역 내용을 배제할 수 있다. OpenCV 기반의 inpaint 함수는 영역 인접 영역을 사용하여 이미지에서 선택 영역을 복원한다. 즉, 상기 입력 이미지 중 필기 픽셀 마스크 영역 위치에 대응하는 상응하는 영역 중의 비필기 픽셀을 제외한 다른 픽셀을 영역 인접 픽셀을 사용해 복원한다. 따라서 상기 입력 이미지 중의 상기 필기 픽셀 마스크 영역 내용을 제거하는 효과를 구현한다.
예를 들어, 본 발명의 비교적 바람직한 다른 실시예에 있어서, 상기 입력 이미지 중의 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계는, 상기 입력 이미지로부터 상기 필기 내용을 제거하여 중간 출력 이미지를 획득하는 단계; 및 중간 출력 이미지에 대해 이진화 처리를 수행하여 출력 이미지를 획득하는 단계를 포함한다.
이진화 처리는 중간 출력 이미지 상의 픽셀 포인트의 그레이스케일 값을 0 또는 255로 설정하는 것이다. 또한 전체 중간 출력 이미지가 명백한 흑백 효과를 나타내도록 하는 과정이기도 하다. 이진화 처리는 중간 출력 이미지 중 데이터량을 크게 감소시켜 타깃의 윤곽을 부각시킬 수 있다. 이진화 처리는 중간 출력 이미지를 흑백 대비가 비교적 선명한 그레이스케일 이미지(즉, 출력 이미지)로 변환할 수 있다. 변환된 그레이스케일 이미지의 노이즈는 간섭이 비교적 적고, 출력 이미지 중의 내용의 식별력과 인쇄 효과를 효과적으로 향상시킬 수 있다.
예를 들어, 입력 이미지로부터 상기 필기 내용을 절단 제거한 후, 필기 내용에 대응하는 영역 내의 모든 픽셀이 제거된다. 즉, 입력 이미지 중의 필기 내용에 대응하는 영역의 픽셀이 비어 픽셀이 없다. 중간 출력 이미지에 대해 이진화 처리를 수행할 때, 중간 출력 이미지 중의 픽셀이 빈 영역은 어떠한 처리도 수행하지 않는다. 또는 중간 출력 이미지에 대해 이진화 처리를 수행할 때, 중간 출력 이미지 중의 픽셀이 빈 영역을 그레이스케일 값 255로 채울 수도 있다. 따라서 처리된 텍스트 이미지를 하나의 전체로 형성하여, 외관이 아름답지 않은 필기 내용 공동 영역이 나타나지 않는다.
예를 들어, 중간 출력 이미지에 대해 이진화 처리를 수행한 후, 최종적으로 출력 이미지를 획득하여 사용자가 해당 출력 이미지를 종이 형태로 인쇄하기가 용이할 수 있다. 예를 들어, 입력 이미지가 폼이면, 출력 이미지를 종이 형태로 인쇄하여 다른 사용자가 기입하도록 제공할 수 있다.
예를 들어, 이진화 처리의 방법은 임계값법일 수 있다. 임계값법은 이하 단계를 포함한다. 즉, 이진화 임계값을 설정하고, 중간 출력 이미지 중의 각 픽셀이의 픽셀값과 이진화 임계값을 비교한다. 중간 출력 이미지 중의 특정 픽셀의 픽셀값이 이진화 임계값 이상이면, 해당 픽셀의 픽셀값은 255 그레이스케일로 설정한다. 중간 출력 이미지 중의 특정 픽셀의 픽셀값이 이진화 임계값 미만이면, 해당 픽셀의 픽셀값을 0 그레이스케일로 설정한다. 이를 통해 중간 출력 이미지에 대한 이진화 처리를 수행할 수 있다.
예를 들어, 이진화 임계값의 선택 방법은 바이모달법, P 파라미터법, OTSU법, 최대 엔트로피법, 반복법 등을 포함한다.
예를 들어, 일부 실시예에 있어서, 중간 출력 이미지에 대해 이진화 처리를 수행하는 단계를 이하 단계를 포함한다. 즉, 중간 출력 이미지를 획득한다. 중간 출력 이미지에 대해 그레이스케일화 처리를 수행하여 중간 출력 이미지의 그레이스케일 이미지를 획득한다. 제1 임계값을 기반으로, 그레이스케일 이미지에 대해 이진화 처리를 수행하여 중간 출력 이미지의 이진화 이미지를 획득한다. 이진화 이미지를 가이드 이미지로 사용하여, 그레이스케일 이미지에 대해 가이드 필터링 처리를 수행하여 필터 이미지를 획득한다. 제2 임계값을 기반으로, 필터 이미지 중의 높은 값 픽셀 포인트를 결정하며, 높은 값 픽셀 포인트의 그레이스케일 값은 제2 임계값보다 크다. 소정 확장 계수를 기반으로 높은 값 픽셀 포인트의 그레이스케일 값에 대해 확장 처리를 수행하여 확장 이미지를 획득한다. 확장 이미지에 대해 선명화 처리를 수행하여 선명한 이미지를 획득한다. 선명한 이미지의 대비도를 조정하여 출력 이미지를 획득한다.
예를 들어, 그레이스케일화 처리의 방법은 성분법, 최대값법, 평균값법 및 가중평균법 등을 포함한다.
예를 들어, 소정 확장 계수는 1.2 내지 1.5이며, 예를 들어 1.3이다. 각 높은 값 픽셀 포인트의 그레이스케일 값에 모두 소정 확장 계수를 곱하여, 높은 값 픽셀 포인트의 그레이스케일 값에 대해 확장 처리를 수행한다. 따라서 흑백 대비가 더욱 명확한 확장 이미지를 획득한다.
예를 들어, 제2 임계값은 필터 이미지의 그레이스케일 값과 그레이스케일 값의 표준차의 합이다.
예를 들어, 확장 이미지에 대해 선명화 처리를 수행하여 선명한 이미지를 획득하는 단계를 하기 단계를 포함한다. 즉, 가우시안 필터를 채택해 확장 이미지에 대해 블러링 처리를 수행하여 블러링 이미지를 획득한다. 소정 혼합 계수를 기반으로 블러링 이미지와 확장이미지를 비례에 맞춰 혼합하여 선명한 이미지를 획득한다.
예를 들어,
Figure pct00001
가 확장 이미지의
Figure pct00002
지점에서의 픽셀 포인트의 그레이스케일 값이라고 가정한다.
Figure pct00003
는 블러링 이미지의
Figure pct00004
지점에서의 픽셀 포인트의 그레이스케일 값이다.
Figure pct00005
는 선명한 이미지의
Figure pct00006
지점에서의 픽셀 포인트의 그레이스케일 값이다.
Figure pct00007
은 확장 이미지의 소정 혼합 계수이다.
Figure pct00008
는 블러링 이미지의 소정 확장 계수이다.
Figure pct00009
,
Figure pct00010
,
Figure pct00011
는 하기 관계를 충족한다.
Figure pct00012
예를 들어, 확장 이미지의 소정 혼합 계수는 1.5이고, 블러링 이미지의 소정 혼합 계수는 -0.5이다.
예를 들어, 선명한 이미지의 대비도를 조정하는 단계는, 선명한 이미지의 그레이스케일 평균값을 기반으로 선명한 이미지의 각 픽셀 포인트의 그레이스케일 값을 조정하는 단계를 포함한다.
예를 들어, 하기 공식을 통해 선명한 이미지의 각 픽셀 포인트의 그레이스케일 값을 조정할 수 있다.
Figure pct00013
여기에서
Figure pct00014
은 개선된 이미지의
Figure pct00015
지점에서의 픽셀 포인트의 그레이스케일 값이다.
Figure pct00016
은 선명한 이미지의 그레이스케일 평균값이다.
Figure pct00017
는 선명한 이미지의
Figure pct00018
지점에서의 픽셀 포인트의 그레이스케일 값이고,
Figure pct00019
는 강도 값이다. 예를 들어, 강도 값은 0.1 내지 0.5일 수 있다. 예를 들어 강도 값은 0.2일 수 있다. 실제 응용에서 강도 값은 최종 도달해야 하는 흑백 개선 효과에 따라 선택할 수 있다.
예를 들어, 도 1에 도시된 바와 같이, 단계 S14는 대체 픽셀을 획득하는 단계; 및 대체 픽셀을 이용해 필기 내용의 픽셀을 대체하여 입력 이미지로부터 필기 내용을 제거하여 출력 이미지를 획득하는 단계를 포함한다.
예를 들어, 대체 픽셀은 필기 픽셀 마스크 영역 외부의 인접 픽셀일 수 있다. 즉, 현재 대체해야 하는 필기 픽셀의 필기 픽셀 마스크 영역 외부에서 인접한 픽셀이다. 마찬가지로, OpenCV 기반의 inpaint 함수를 이용해 직접 픽셀 대체 처리를 수행할 수도 있다.
예를 들어, 영역 식별의 방식을 채택해 필기 픽셀 대체 처리를 수행할 수도 있다. 먼저 영역 식별 모델을 통해 필기 영역을 획득한다. 대체 픽셀은 필기 영역에서 필기 내용의 픽셀을 제외한 어느 하나의 픽셀의 픽셀값일 수 있다. 또는 대체 픽셀은 필기 영역에서 필기 내용의 픽셀을 제외한 모든 픽셀의 픽셀값의 평균값(예를 들어, 기하학적 평균값)이다. 또는 대체 픽셀값은 예를 들어 255 그레이스케일 값과 같이 고정값일 수도 있다. 예를 들어 U-Net 모델 등 이미지 분할 모델을 이용해 직접 필기 영역 중의 필기 내용 픽셀을 제외한 어느 하나의 픽셀을 추출하여 대체 픽셀을 획득할 수 있다. 또는 예를 들어 U-Net 모델 등 이미지 분할 모델을 이용해 필기 영역 중 필기 내용의 픽셀을 제외한 모든 픽셀을 추출한 후, 모든 픽셀의 픽셀값을 기반으로 대체 픽셀을 획득할 수도 있음에 유의한다.
예를 들어, 대체 픽셀을 이용해 필기 내용의 픽셀을 대체하여, 입력 이미지로부터 필기 내용을 제거함으로써 출력 이미지를 획득하는 단계는, 대체 픽셀을 이용해 필기 내용의 픽셀을 대체하여, 입력 이미지로부터 필기 내용을 제거하여 중간 출력 이미지를 획득하는 단계; 및 중간 출력 이미지에 대해 이진화 처리를 수행하여 출력 이미지를 획득하는 단계를 포함한다.
영역 식별 모델에 대해 영역 식별, 이진화 처리 등을 수행하는 설명은 상술한 관련 설명을 참조할 수 있다. 중복되는 부분은 여기에서 반복하여 설명하지 않기로 한다.
예를 들어, 도 2a에 도시된 원본 이미지에 대해 텍스트 이미지 중 필기 내용을 제거하는 처리를 수행한 후, 도 2b에 도시된 바와 같은 출력 이미지를 획득할 수 있다. 상기 출력 이미지는 이진화된 이미지이다. 도 2b에 도시된 바와 같이, 해당 출력 이미지에서 모든 필기 내용이 모두 제거되어, 사용자 기입 정보가 없는 빈 폼을 획득한다.
본 발명의 실시예에 있어서, 모델(예를 들어, 영역 식별 모델, 이미지 분할 모델 등 임의 모델)은 단순한 수학 모델이 아니라, 입력 데이터 수신, 데이터 처리 실행, 처리 결과 출력의 모듈일 수 있다. 상기 모듈은 소프트웨어 모듈, 하드웨어 모듈(예를 들어, 하드웨어 신경망) 또는 소프트웨어와 하드웨어를 결합한 방식으로 구현될 수 있다. 일부 실시예에 있어서, 영역 식별 모델 및/또는 이미지 분할 모델은 메모리에 저장된 코드와 프로그램을 포함한다. 프로세서는 상기 코드와 프로그램을 실행하여 전술한 바와 같은 영역 식별 모델 및/또는 이미지 분할 모델의 일부 기능 또는 모든 기능을 구현할 수 있다. 다른 일부 실시예에 있어서, 영역 식별 모델 및/또는 이미지 분할 모델은 하나의 회로판 또는 복수의 회로판의 조합을 포함하여 상술한 바와 같은 기능을 구현하는 데 사용될 수 있다. 일부 실시예에 있어서, 상기 하나의 회로판 또는 복수의 회로판의 조합은, (1) 하나 이상의 프로세서; (2) 프로세서와 연결된 하나 이상의 비일시적 컴퓨터 판독 가능 메모리; 및 (3) 프로세서에 의해 실행 가능한 메모리에 저장된 펌웨어를 포함할 수 있다.
본 발명의 실시예에 있어서, 입력 이미지를 획득하기 전에, 텍스트 이미지에서 필기 내용을 제거하는 방법은 학습 단계를 더 포함하는 점에 유의한다. 학습 단계는 영역 식별 모델과 이미지 분할 모델을 학습시키는 과정을 포함한다. 영역 식별 모델과 이미지 분할 모델은 각각 학습시키거나, 동시에 영역 식별 모델과 이미지 분할 모델을 학습시킬 수 있음에 유의한다.
예를 들어, 텍스트 인쇄 영역(예를 들어, 표시된 텍스트 인쇄 영역의 수량이 적어도 하나임)과 필기 영역(예를 들어, 표시된 필기 영역의 수량이 적어도 하나)이 표시된 제1 샘플 이미지를 통해 학습할 영역 식별 모델에 대해 학습을 수행하여 영역 식별 모델을 획득할 수 있다. 예를 들어, 학습할 영역 식별 모델의 학습 과정은, 학습 단계에서 텍스트 인쇄 영역과 필기 영역이 표시된 여러 장의 제1 샘플 이미지를 이용해 학습할 영역 식별 모델을 학습시켜 영역 식별 모델을 획득하는 단계를 포함할 수 있다.
예를 들어, 여러 장의 제1 샘플 이미지를 이용해 학습할 영역 식별 모델을 학습시키는 단계를 하기 단계를 포함한다. 즉, 여러 장의 제1 샘플 이미지로부터 현재 제1 샘플 이미지를 획득한다. 학습할 영역 식별 모델을 이용해 현재 제1 샘플 이미지를 처리하여, 학습 텍스트 인쇄 영역과 학습 필기 영역을 획득한다. 현재 제1 샘플 이미지 중 표시된 텍스트 인쇄 영역과 필기 영역 및 학습 텍스트 인쇄 영역과 학습 필기 영역을 기반으로, 제1 손실 함수를 통해 학습할 영역 식별 모델의 제1 손실값을 계산한다. 제1 손실값을 기반으로 학습할 영역 식별 모델의 파라미터를 수정한다. 제1 손실 함수가 제1 소정 조건을 충족하면, 학습이 완료된 영역 식별 모델을 획득한다. 제1 손실 함수가 제1 소정 조건을 충족하지 않으면, 계속해서 제1 샘플 이미지를 입력하여 상술한 학습 과정을 다시 실행한다.
예를 들어, 일 예시에 있어서, 상술한 제1 소정 조건은 일정 수량의 제1 샘플 이미지를 입력한 경우 제1 손실 함수의 손실 수렴(즉, 제1 손실값은 더 이상 현저하게 감소하지 않음)에 대응한다. 예를 들어, 다른 일 예시에 있어서, 상술한 제1 소정 조건은 학습 횟수 또는 학습 주기가 소정 수(예를 들어, 상기 소정 수는 수백만일 수 있음)에 도달하는 것이다.
예를 들어, 필기 내용 픽셀이 표시된 제2 샘플 이미지를 통해 학습할 이미지 분할 모델을 학습시켜 이미지 분할 모델을 획득할 수 있다. 제2 샘플 이미지 중의 필기 내용 픽셀을 표시할 때, 제2 샘플 이미지를 확대하여 전체 필기 내용 픽셀을 정확하게 표시할 수 있다. 다양한 필기 특징(예를 들어, 픽셀 그레이스케일 특징, 글꼴 특징 등)을 기반으로 머신러닝을 수행하여 이미지 분할 모델을 구축한다.
예를 들어, 학습할 이미지 분할 모델의 학습 과정은, 학습 단계에서 필기 내용 픽셀이 표시된 여러 장의 제2 샘플 이미지를 이용해 학습할 이미지 분할 모델을 학습하여 이미지 분할 모델을 획득하는 단계를 포함할 수 있다.
예를 들어, 여러 장의 제2 샘플 이미지를 이용해 학습할 영역 식별 모델을 학습하는 단계는 하기 단계를 포함한다. 즉, 여러 장의 제2 샘플 이미지로부터 현재 제2 샘플 이미지를 획득한다. 학습할 이미지 분할 모델을 이용해 현재 제2 샘플 이미지를 처리하여, 학습 필기 내용 픽셀을 획득한다. 현재 제2 샘플 이미지에 표시된 필기 내용 픽셀과 학습 필기 내용 픽셀을 기반으로, 제2 손실 함수를 통해 학습할 이미지 분할 모델의 제2 손실값을 계산한다. 제2 손실값을 기반으로 학습할 이미지 분할 모델의 파라미터를 수정한다. 제2 손실 함수가 제2 소정 조건을 충족하면, 학습이 완료된 이미지 분할 모델을 획득한다. 제2 손실 함수가 제2 소정 조건을 충족하지 않으면, 계속해서 제2 샘플 이미지를 입력하여 상술한 학습 과정을 반복 실행한다.
예를 들어, 일 예시에 있어서, 상술한 제2 소정 조건은 일정 수량의 제2 샘플 이미지를 입력한 경우 제2 손실 함수의 손실 수렴(즉, 제2 손실값은 더 이상 현저하게 감소하지 않음)에 대응한다. 예를 들어, 다른 일 예시에 있어서, 상술한 제2 소정 조건은 학습 횟수 또는 학습 주기가 소정 수(예를 들어, 상기 소정 수는 수백만일 수 있음)에 도달하는 것이다.
본 기술 분야의 당업자는 여러 장의 제1 학습 샘플 이미지와 여러 장의 제2 학습 샘플 이미지는 동일할 수도, 상이할 수도 있다.
본 발명의 적어도 일 실시예는 텍스트 이미지에서 필기 내용을 제거하는 장치를 더 제공한다. 도 3은 본 발명의 적어도 일 실시예에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 장치의 블록도이다.
도 3에 도시된 바와 같이, 상기 텍스트 이미지에서 필기 내용을 제거하는 장치(300)는 프로세서(302) 및 메모리(301)를 포함한다. 도 3에 도시된 텍스트 이미지에서 필기 내용을 제거하는 장치(300)의 어셈블리는 예시적인 것으로, 비제한적인 것이다. 실제 응용 수요에 따라 상기 텍스트 이미지에서 필기 내용을 제거하는 장치(300)는 다른 어셈블리를 더 구비할 수 있다. 예를 들어, 메모리(301)는 컴퓨터 판독 가능 명령을 비일시적으로 저장하는 데 사용된다. 프로세서(302)는 컴퓨터 판독 가능 명령을 실행하는 데 사용된다. 컴퓨터 판독 가능 명령이 프로세서(302)에 의해 실행되면 상술한 어느 하나의 실시예에 따른 텍스트 이미지에서 필기 내용을 제거하는 방법이 실행된다.
본 발명 실시예에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 장치(300)는 본 발명 실시예에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 방법을 구현하는 데 사용될 수 있다. 상기 텍스트 이미지에서 필기 내용을 제거하는 장치(300)는 전자 디바이스 상에 구성될 수 있다. 상기 전자 디바이스는 개인 컴퓨터, 이동 단말 등일 수 있다. 상기 이동 단말은 휴대폰, 태블릿 PC 등 다양한 운영시스템을 구비한 하드웨어 디바이스일 수 있다.
예를 들어, 도 3에 도시된 바와 같이, 텍스트 이미지에서 필기 내용을 제거하는 장치(300)는 이미지 획득 부재(303)를 더 포함할 수 있다. 이미지 획득 부재(303)는 텍스트 이미지를 획득하는 데 사용된다. 예를 들어 종이 텍스트의 이미지를 획득한다. 메모리(301)는 텍스트 이미지를 저장하는 데 더 사용될 수 있다. 프로세서(302)는 텍스트 이미지를 판독 및 처리하여 입력 이미지를 획득하는 데 더 사용된다. 텍스트 이미지는 상술한 텍스트 이미지에서 필기 내용을 제거하는 방법의 실시예에 설명된 원본 이미지일 수 있다.
예를 들어, 이미지 획득 부재(303)는 상술한 텍스트 이미지에서 필기 내용을 제거하는 방법에 설명된 이미지 수집 장치이다. 예를 들어, 이미지 획득 부재(303)는 스마트폰의 카메라, 태블릿 PC의 카메라, 개인용 컴퓨터의 카메라, 디지털카메라의 렌즈, 네트워크 카메라 및 기다 이미지 수집에 사용 가능한 장치일 수 있다.
예를 들어, 도 3에 도시된 실시예에 있어서, 이미지 획득 부재(303), 메모리(301) 및 프로세서(302) 등은 물리적으로 동일한 전자 디바이스 내부에 집적될 수 있다. 이미지 획득 부재(303)는 전자 디바이스 상에 구성된 카메라일 수 있다. 메모리(301)와 프로세서(302)는 내부 버스를 거쳐 이미지 획득 부재(303)로부터 전송되는 이미지를 수신한다. 또 예를 들면, 이미지 획득 부재(303)와 메모리(301)/프로세서(302)는 물리적 위치 상에서 분리 구성될 수도 있다. 메모리(301)와 프로세서(302)는 제1 사용자의 전자 디바이스(예를 들어, 제1 사용자의 컴퓨터, 휴대폰 등)에 집적될 수 있다. 이미지 획득 부재(303)는 제2 사용자(제1 사용자와 제2 사용자는 상이함)의 전자 디바이스에 집적될 수 있다. 제1 사용자의 전자 디바이스와 제2 사용자의 전자 디바이스는 물리적 위치 상에서 분리 구성될 수 있다. 또한 제1 사용자의 전자 디바이스와 제2 사용자의 전자 디바이스 사이는 유선 또는 무선 방식에 의해 통신을 수행할 수 있다. 다시 말해, 제2 사용자의 전자 디바이스 상의 이미지 획득 부재(303)에서 원본 이미지를 수집한 후, 제2 사용자의 전자 디바이스는 유선 또는 무선 방식으로 해당 원본 이미지를 제1 사용자의 전자 디바이스에 전송할 수 있다. 제1 사용자의 전자 디바이스는 해당 원본 이미지를 수신하여 해당 원본 이미지에 대한 후속 처리를 수행한다. 예를 들어, 메모리(301)와 프로세서(302)는 클라우드 서버에 집적될 수도 있다. 클라우드 서버는 원본 이미지를 수신하고 원본 이미지를 처리한다.
예를 들어, 텍스트 이미지에서 필기 내용을 제거하는 장치(300)는 출력 장치를 더 포함할 수 있다. 출력 장치는 상기 출력 이미지를 출력하는 데 사용된다. 예를 들어, 출력 장치는 디스플레이(예를 들어, 유기 발광 다이오드 디스플레이, 액정 디스플레이), 영상 장치 등을 포함할 수 있다. 디스플레이와 영상 장치는 출력 이미지를 표시하는 데 사용될 수 있다. 출력 장치는 프린터를 포함할 수 있다. 프린터는 출력 이미지를 인쇄하는 데 사용된다.
예를 들어, 프로세서(302)와 메모리(301) 등 어셈블리 사이는 네트워크 연결에 의해 통신이 수행될 수 있다. 네트워크는 무선 네트워크, 유선 네트워크, 및/또는 무선 네트워크와 유선 네트워크의 임의 조합을 포함할 수 있다. 네트워크는 근거리 통신망, 인터넷, 통신 네트워크, 인터넷 및/또는 통신 네트워크 기반의 사물 인터넷(Internet of Things), 및/또는 상기 네트워크의 임의의 조합 등을 포함할 수 있다. 유선 네트워크는 예를 들어 트위스트 페어 선(twisted pair line), 동축 케이블 또는 광섬유 전송 등 방식을 채택해 통신을 수행할 수 있다. 무선 네트워크는 예를 들어 3G/4G/5G 이동 통신망, 블루투스, 지그비(Zigbee) 또는 와이파이(WiFi) 등 통신 방식을 채택할 수 있다. 본 발명은 네트워크의 유형과 기능을 여기에서 한정하지 않는다.
예를 들어, 프로세서(302)는 텍스트 이미지에서 필기 내용을 제거하는 장치(300) 중의 기타 어셈블리를 제어하여 원하는 기능을 실행할 수 있다. 프로세서(302)는 중앙 처리 장치(CPU), 텐서 프로세서(TPU) 또는 그래픽 프로세서(GPU) 등 데이터 처리 능력 및/또는 프로그램 실행 능력이 있는 소자일 수 있다. 중앙 처리 장치(CPU)는 X86 또는 ARM 아키텍처 등일 수 있다. GPU는 독립적으로 직접 메인보드 상에 집적되거나 메인보드의 노스 브릿지(north bridge) 칩에 내장될 수 있다. GPU는 중앙 처리 장치(CPU) 상에 내장될 수도 있다.
예를 들어, 메모리(301)는 하나 이상의 컴퓨터 프로그램 제품의 임의 조합을 포함할 수 있다. 컴퓨터 프로그램 제품은 다양한 형태의 컴퓨터 판독 가능 저장 매체를 포함할 수 있으며, 예를 들어 휘발성 메모리 및/또는 비휘발성 메모리가 있다. 휘발성 메모리는 예를 들어 랜덤 액세스 메모리(RAM) 및/또는 캐시 메모리(cache)를 포함할 수 있다. 비휘발성 메모리는 예를 들어 읽기 전용 메모리(ROM), 하드 디스크, 삭제 및 프로그래밍 가능한 읽기 전용 메모리(EPROM), 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), USB 메모리, 플래시 메모리 등을 포함할 수 있다. 상기 컴퓨터 판독 가능 저장 매체 상에는 하나 이상의 컴퓨터 판독 가능 명령이 저장될 수 있다. 프로세서(302)는 상기 컴퓨터 판독 가능 명령을 실행하여, 텍스트 이미지에서 필기 내용을 제거하는 장치(300)의 다양한 기능을 구현할 수 있다. 저장 매체에는 다양한 응용프로그램과 다양한 데이터 등이 더 저장될 수 있다.
텍스트 이미지에서 필기 내용을 제거하는 장치(300)는 텍스트 이미지에서 필기 내용을 제거하는 방법을 실행하는 과정에 관한 상세한 설명을 텍스트 이미지에서 필기 내용을 제거하는 방법 실시예의 관련 설명을 참조할 수 있다. 중복되는 부분은 여기에서 반복하여 설명하지 않기로 한다.
본 발명의 적어도 일 실시예는 저장 매체를 더 제공한다. 도 4는 본 발명의 적어도 일 실시예에서 제공하는 저장 매체의 개략도이다. 예를 들어, 도 4에 도시된 바와 같이, 저장 매체(500) 상에 하나 이상의 컴퓨터 판독 가능 명령(501)을 비일시적으로 저장할 수 있다. 예를 들어, 상기 컴퓨터 판독 가능 명령(501)이 컴퓨터에 의해 실행되면 상술한 텍스트 이미지에서 필기 내용을 제거하는 방법 중 하나 이상의 단계를 실행할 수 있다.
예를 들어, 상기 저장 매체(500)는 상술한 텍스트 이미지에서 필기 내용을 제거하는 장치(300)에 적용될 수 있다. 예를 들어, 여기에는 텍스트 이미지에서 필기 내용을 제거하는 장치(300) 중의 메모리(301)가 포함될 수 있다.
예를 들어, 저장 매체(500)에 관한 설명은 텍스트 이미지에서 필기 내용을 제거하는 장치(300)의 실시예 중 메모리에 대한 설명을 참조할 수 있다. 중복되는 부분은 여기에서 반복하여 설명하지 않기로 한다.
도 5는 본 발명의 적어도 일 실시예에 따른 하드웨어 환경의 개략도이다. 본 발명의 실시예에서 제공하는 텍스트 이미지에서 필기 내용을 제거하는 장치는 인터넷 시스템에 적용될 수 있다.
도 5에서 제공하는 컴퓨터 시스템을 이용하여 본 발명에 언급된 텍스트 이미지에서 필기 내용을 제거하는 장치를 구현할 수 있다. 이러한 유형의 컴퓨터 시스템에는 개인용 컴퓨터, 노트북 컴퓨터, 태블릿 PC, 휴대폰 및 임의 스마트 디바이스가 포함된다. 본 실시예에서 특정 시스템은 기능 블록도를 이용하여 사용자 인터페이스를 포함한 하드웨어 플랫폼을 해석하였다. 이러한 컴퓨터 시스템은 범용 목적의 컴퓨터 디바이스, 또는 특수 목적의 컴퓨터 디바이스를 포함할 수 있다. 2가지 컴퓨터 디바이스는 모두 본 실시예 중의 텍스트 이미지에서 필기 내용을 제거하는 장치를 구현하는 데 사용될 수 있다. 컴퓨터 시스템은 현재 설명된 텍스트 이미지에서 필기 내용을 제거하는 방법을 구현하는 데 필요한 정보의 임의 어셈블리를 실시할 수 있다. 예를 들어, 컴퓨터 시스템은 컴퓨터 디바이스에 의해 그 하드웨어 디바이스, 소프트웨어 프로그램, 펌웨어 및 기타 조합에 의해 구현될 수 있다. 용이성 관점에서, 도 5는 컴퓨터 디바이스만 제도하였다. 그러나 본 실시예에 설명된 텍스트 이미지에서 필기 내용을 제거하는 방법을 구현하는 데 필요한 정보의 관련 컴퓨터 기능은 분산 방식으로, 한 세트의 유사한 플랫폼에 의해 실시된다. 이는 컴퓨터 시스템의 처리 부하를 분산시킨다.
도 5에 도시된 바와 같이, 컴퓨터 시스템은 통신 포트(250)를 포함할 수 있다. 이와 연결된 것은 데이터 통신을 구현하는 네트워크이다. 예를 들어, 통신 포트(250)는 상기에서 설명한 이미지 획득 부재(403)와 통신을 수행할 수 있다. 컴퓨터 시스템은 프로그램 명령을 실행하기 위한 프로세서 세트(220)(즉, 상기에서 설명한 프로세서)를 더 포함할 수 있다. 프로세서 세트(220)는 적어도 하나의 프로세서(예를 들어, CPU)로 구성될 수 있다. 컴퓨터 시스템은 하나의 내부 통신 버스(210)를 포함할 수 있다. 컴퓨터 시스템은 상이한 형식의 프로그램 저장 유닛 및 데이터 저장 유닛(즉, 상기에서 설명한 메모리 또는 저장 매체)을 포함할 수 있다. 예를 들어, 하드 디스크(270), 읽기 전용 메모리(ROM)(230), 랜덤 액세스 메모리(RAM)(240)는 컴퓨터 처리 및/또는 통신에 사용되는 다양한 데이터 파일, 및 프로세서 세트(220)에 의해 실행 가능한 프로그램 명령을 저장하는 데 사용될 수 있다. 컴퓨터 시스템은 하나의 입력/출력 어셈블리(260)를 포함할 수 있다. 입력/출력 어셈블리(260)는 컴퓨터 시스템과 다른 어셈블리(예를 들어, 사용자 인터페이스(280)이며, 사용자 인터페이스(280)는 상기에서 설명한 디스플레이일 수 있음) 사이의 입력/출력 데이터 흐름을 지원할 수 있다. 컴퓨터 시스템은 통신 포트(250)를 통해 정보 및 데이터를 송수신할 수도 있다.
일부 실시예에 있어서, 상술한 컴퓨터 시스템은 인터넷 통신 시스템 중의 서버를 구성하는 데 사용될 수 있다. 인터넷 통신 시스템의 서버는 서버 하드웨어 디바이스, 또는 서버 그룹일 수 있다. 서버 그룹 내의 각 서버는 유선 또는 무선 네트워크에 의해 연결될 수 있다. 서버 그룹은 데이터 센터와 같이 집중형일 수 있다. 서버 그룹은 분산형 시스템과 같이 분산형일 수도 있다.
본 발명의 블록도 및/또는 흐름도 중의 각 블록, 및 블록도 및/또는 흐름도 중의 블록의 조합은 규정된 기능 또는 동작을 실행하는 전용의 하드웨어 기반 시스템으로 구현할 수 있다. 또는 전용 하드웨어와 컴퓨터 프로그램 명령의 조합으로 구현할 수 있음에 유의한다. 본 기술 분야의 당업자에게 있어서, 하드웨어 방식으로 구현하는 것, 소프트웨어 방식으로 구현하는 것 및 소프트웨어와 하드웨어 조합 방식으로 구현하는 것이 모두 동등하다는 것은 공지된 사실이다.
본 발명은 하기 몇 가지를 더 설명할 필요가 있다.
(1) 본 발명 실시예의 첨부 도면은 본 발명 실시예과 관련된 구조에 불과하며, 다른 구조는 통상적인 설계를 참조할 수 있다.
(2) 명확성을 위해, 본 발명 실시예를 설명하기 위한 첨부 도면에서 층 또는 구조의 두께와 크기는 확대되었다. 층, 막, 영역 또는 기판과 같은 요소가 다른 요소의 "위"또는 "아래"에 위치할 때, 해당 요소는 다른 요소의 "위" 또는 "아래"에 "직접" 위치하거나 중간 요소가 존재할 수 있음을 이해할 수 있다.
(3) 충돌이 없는 한, 본 발명의 실시예 및 실시예 중의 특징은 서로 조합되어 새로운 실시예를 얻을 수 있다.
상기 내용은 본 발명의 구체적인 실시방식에 불과하며, 본 발명의 보호 범위는 이에 한정되지 않는다. 본 발명의 보호 범위는 청구범위의 보호 범위를 기준으로 해야 한다.

Claims (13)

  1. 텍스트 이미지에서 필기 내용을 제거하는 방법에 있어서,
    처리할 텍스트 페이지의 입력 이미지를 획득하는 단계 - 상기 입력 이미지는 필기 영역을 포함하고, 상기 필기 영역은 필기 내용을 포함함 -;
    이미지 분할 모델을 이용해 상기 입력 이미지를 식별하여, 상기 필기 내용의 초기 필기 픽셀을 획득하는 단계;
    상기 초기 필기 픽셀에 대해 블러링 처리를 수행하여, 필기 픽셀 마스크 영역을 획득하는 단계;
    상기 필기 픽셀 마스크 영역을 기반으로 상기 필기 영역 중의 상기 필기 내용을 결정하는 단계; 및
    상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  2. 제1항에 있어서,
    상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계는,
    상기 초기 필기 픽셀의 픽셀값 및 상기 필기 픽셀 마스크 영역의 위치를 기반으로, 상기 입력 이미지에서 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀을 결정하고, 상기 입력 이미지 중의 상기 필기 픽셀 마스크 영역 내용을 제거하여, 중간 출력 이미지를 획득하는 단계; 및
    상기 중간 출력 이미지에 대해 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀 복원을 수행하여, 상기 출력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  3. 제1항에 있어서,
    상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계는,
    상기 초기 필기 픽셀의 픽셀값 및 상기 필기 픽셀 마스크 영역의 위치를 기반으로, 상기 입력 이미지에서 상기 필기 픽셀 마스크 영역 중의 비필기 픽셀을 결정하는 단계; 및
    상기 필기 픽셀 마스크 영역 중의 비필기 픽셀 및 상기 필기 픽셀 마스크 영역을 기반으로 상기 입력 이미지 중의 상기 필기 내용을 제거하여, 상기 출력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  4. 제1항에 있어서,
    상기 입력 이미지에서 상기 필기 내용을 제거하여 출력 이미지를 획득하는 단계는,
    상기 입력 이미지로부터 상기 필기 내용을 절단 제거하여 중간 출력 이미지를 획득하는 단계; 및
    상기 중간 출력 이미지에 대해 이진화 처리를 수행하여, 상기 출력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  5. 제1항에 있어서,
    상기 입력 이미지에서 상기 필기 내용을 제거하여 상기 출력 이미지를 획득하는 단계는,
    대체 픽셀을 획득하는 단계; 및
    상기 대체 픽셀을 이용해 상기 필기 내용의 픽셀을 대체하여, 상기 입력 이미지로부터 상기 필기 내용을 제거하여 상기 출력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  6. 제5항에 있어서,
    상기 대체 픽셀을 이용해 상기 필기 내용의 픽셀을 대체하여, 상기 입력 이미지로부터 상기 필기 내용을 제거하여 상기 출력 이미지를 획득하는 단계는,
    상기 대체 픽셀을 이용해 상기 필기 내용의 픽셀을 대체하여, 상기 입력 이미지로부터 상기 필기 내용을 제거하여 중간 출력 이미지를 획득하는 단계; 및
    상기 중간 출력 이미지에 대해 이진화 처리를 수행하여, 상기 출력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  7. 제5항에 있어서,
    상기 대체 픽셀은 상기 필기 내용의 픽셀에 따라 픽셀 인접 영역 기반으로 계산한 이미지 복원 알고리즘을 통해 획득하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  8. 제5항에 있어서,
    대체 픽셀을 획득하는 상기 단계는 영역 식별 모델을 이용해 상기 입력 이미지를 식별하여 상기 필기 영역을 획득하는 단계를 더 포함하고, 상기 대체 픽셀은 상기 필기 영역에서 상기 필기 내용의 픽셀을 제외한 어느 하나의 픽셀이거나; 또는
    상기 대체 픽셀은 상기 필기 영역에서 상기 필기 내용의 픽셀을 제외한 모든 픽셀의 픽셀값의 평균값인 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 처리할 텍스트 페이지의 입력 이미지를 획득하는 단계는,
    상기 처리할 텍스트 페이지의 원본 이미지를 획득하는 단계 - 상기 원본 이미지는 처리할 텍스트 영역을 포함함 - ;
    상기 원본 이미지에 대해 에지 검출을 수행하여, 상기 원본 이미지 중의 상기 처리할 텍스트 영역을 결정하는 단계; 및
    상기 처리할 텍스트 영역에 대해 정규화 처리를 수행하여 상기 입력 이미지를 획득하는 단계를 포함하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  10. 제1항에 있어서,
    상기 이미지 분할 모델은 상기 입력 이미지를 분할하는 사전 학습된U-Net 모델인 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  11. 제1항에 있어서,
    가우시안 필터 함수를 통해 상기 초기 필기 픽셀에 대해 블러링 처리를 수행하고, 상기 초기 필기 픽셀의 영역을 확대하여, 상기 필기 픽셀 마스크 영역을 획득하는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 방법.
  12. 텍스트 이미지에서 필기 내용을 제거하는 장치에 있어서,
    컴퓨터 판독 가능 명령을 비일시적으로 저장하는 데 사용되는 메모리; 및
    상기 컴퓨터 판독 가능 명령을 실행하는 데 사용되는 프로세서를 포함하고, 상기 컴퓨터 판독 가능 명령이 상기 프로세서에 의해 실행되면 제1항 내지 제11항 중 어느 한 항에 따른 텍스트 이미지에서 필기 내용을 제거하는 방법이 실행되는 것을 특징으로 하는 텍스트 이미지에서 필기 내용을 제거하는 장치.
  13. 컴퓨터 판독 가능 명령을 비일시적으로 저장하는 저장 매체에 있어서,
    상기 컴퓨터 판독 가능 명령이 컴퓨터에 의해 실행되면 제1항 내지 제11항 중 어느 한 항에 따른 텍스트 이미지에서 필기 내용을 제거하는 방법이 실행될 수 있는 저장 매체.
KR1020227037762A 2020-04-10 2021-02-09 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체 KR20220160660A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010278143.4A CN111488881A (zh) 2020-04-10 2020-04-10 文本图像中手写内容去除方法、装置、存储介质
CN202010278143.4 2020-04-10
PCT/CN2021/076250 WO2021203832A1 (zh) 2020-04-10 2021-02-09 文本图像中手写内容去除方法、装置、存储介质

Publications (1)

Publication Number Publication Date
KR20220160660A true KR20220160660A (ko) 2022-12-06

Family

ID=71794780

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227037762A KR20220160660A (ko) 2020-04-10 2021-02-09 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체

Country Status (5)

Country Link
US (1) US20230222631A1 (ko)
JP (1) JP2023523152A (ko)
KR (1) KR20220160660A (ko)
CN (1) CN111488881A (ko)
WO (1) WO2021203832A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275139B (zh) 2020-01-21 2024-02-23 杭州大拿科技股份有限公司 手写内容去除方法、手写内容去除装置、存储介质
CN111488881A (zh) * 2020-04-10 2020-08-04 杭州睿琪软件有限公司 文本图像中手写内容去除方法、装置、存储介质
CN112070708B (zh) 2020-08-21 2024-03-08 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备、存储介质
CN112150394B (zh) * 2020-10-12 2024-02-20 杭州睿琪软件有限公司 图像处理方法及装置、电子设备和存储介质
CN112150365B (zh) * 2020-10-15 2023-02-21 江西威力固智能设备有限公司 一种喷印图像的涨缩处理方法及喷印设备
CN113592735A (zh) * 2021-07-23 2021-11-02 作业帮教育科技(北京)有限公司 文本页面图像还原方法及系统、电子设备和计算机可读介质
CN113781356B (zh) * 2021-09-18 2024-06-04 北京世纪好未来教育科技有限公司 图像去噪模型的训练方法、图像去噪方法、装置及设备
CN114048822A (zh) * 2021-11-19 2022-02-15 辽宁工程技术大学 一种图像的注意力机制特征融合分割方法
CN114283156B (zh) * 2021-12-02 2024-03-05 珠海移科智能科技有限公司 一种用于去除文档图像颜色及手写笔迹的方法及装置
CN117746214B (zh) * 2024-02-07 2024-05-24 青岛海尔科技有限公司 基于大模型生成图像的文本调整方法、装置、存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080055119A (ko) * 2006-12-14 2008-06-19 삼성전자주식회사 화상형성장치 및 그 제어방법
CN102521516A (zh) * 2011-12-20 2012-06-27 北京商纳科技有限公司 一种自动生成错题本的方法及系统
US9525802B2 (en) * 2013-07-24 2016-12-20 Georgetown University Enhancing the legibility of images using monochromatic light sources
CN105898322A (zh) * 2015-07-24 2016-08-24 乐视云计算有限公司 一种视频去水印方法及装置
CN109254711A (zh) * 2018-09-29 2019-01-22 联想(北京)有限公司 信息处理方法及电子设备
CN111275139B (zh) * 2020-01-21 2024-02-23 杭州大拿科技股份有限公司 手写内容去除方法、手写内容去除装置、存储介质
CN111488881A (zh) * 2020-04-10 2020-08-04 杭州睿琪软件有限公司 文本图像中手写内容去除方法、装置、存储介质

Also Published As

Publication number Publication date
WO2021203832A1 (zh) 2021-10-14
US20230222631A1 (en) 2023-07-13
CN111488881A (zh) 2020-08-04
JP2023523152A (ja) 2023-06-02

Similar Documents

Publication Publication Date Title
KR20220160660A (ko) 텍스트 이미지에서 필기 내용을 제거하는 방법, 장치 및 저장 매체
CN111275139B (zh) 手写内容去除方法、手写内容去除装置、存储介质
US20190304066A1 (en) Synthesis method of chinese printed character images and device thereof
US11106891B2 (en) Automated signature extraction and verification
JP5302258B2 (ja) 文書オブジェクトを自動位置合わせするための方法
US9710704B2 (en) Method and apparatus for finding differences in documents
US8000529B2 (en) System and method for creating an editable template from a document image
WO2021233266A1 (zh) 边缘检测方法和装置、电子设备和存储介质
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
US20110052062A1 (en) System and method for identifying pictures in documents
EP3940589B1 (en) Layout analysis method, electronic device and computer program product
US9262679B2 (en) System and method for identification and separation of form and feature elements from handwritten and other user supplied elements
CN114283156B (zh) 一种用于去除文档图像颜色及手写笔迹的方法及装置
KR20170101125A (ko) 정보 처리장치, 정보 처리방법, 및 기억매체
JP7364639B2 (ja) デジタル化された筆記の処理
CN111767924B (zh) 图像处理方法、图像处理装置、电子设备、存储介质
CN114581928A (zh) 一种表格识别方法及系统
CN112070708B (zh) 图像处理方法、图像处理装置、电子设备、存储介质
US20240144711A1 (en) Reliable determination of field values in documents with removal of static field elements
CN113793264B (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备
Bhaskar et al. Implementing optical character recognition on the android operating system for business cards
CN114241486A (zh) 一种提高识别试卷学生信息准确率的方法
CN112101356A (zh) 一种图片中特定文本的定位方法、装置及存储介质
US9020295B1 (en) Image glyph enhancement
Uyun et al. Skew Correction and Image Cleaning Handwriting Recognition Using a Convolutional Neural Network