KR20190095651A - 문자 학습 트레이닝 데이터 생성 장치 및 그 방법 - Google Patents

문자 학습 트레이닝 데이터 생성 장치 및 그 방법 Download PDF

Info

Publication number
KR20190095651A
KR20190095651A KR1020180014884A KR20180014884A KR20190095651A KR 20190095651 A KR20190095651 A KR 20190095651A KR 1020180014884 A KR1020180014884 A KR 1020180014884A KR 20180014884 A KR20180014884 A KR 20180014884A KR 20190095651 A KR20190095651 A KR 20190095651A
Authority
KR
South Korea
Prior art keywords
text
training data
image
document
marker
Prior art date
Application number
KR1020180014884A
Other languages
English (en)
Inventor
박재영
손우엽
Original Assignee
삼성에스디에스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성에스디에스 주식회사 filed Critical 삼성에스디에스 주식회사
Priority to KR1020180014884A priority Critical patent/KR20190095651A/ko
Publication of KR20190095651A publication Critical patent/KR20190095651A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06K9/3258
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/199Arrangements for recognition using optical reference masks, e.g. holographic masks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • G06K2209/01

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

문자 학습을 위한 트레이닝 데이터를 생성하는 장치 및 그 방법이 제공 된다. 본 발명의 일 실시예에 따른 트레이닝 데이터 생성 방법은, 임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하는 단계, 상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하는 단계, 상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하는 단계 및 상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 상기 트레이닝 데이터를 생성하는 단계를 포함한다.

Description

문자 학습 트레이닝 데이터 생성 장치 및 그 방법{APPARATUS FOR GENERATING TRAINING DATA FOR CHARACTER LEARNING AND METHOD THEREOF}
본 발명은 문자 학습을 위한 트레이닝 데이터를 생성하는 장치 및 그 방법에 관한 것이다. 보다 자세하게는, 문자 학습 장치의 학습을 통한 광학적 문자 인식(Optical Character Recognition)을 위한 문자 인식 모델을 트레이닝하기 위한 트레이닝 데이터를 생성하는 방법 및 장치에 관한 것이다.
컴퓨터 기술(예를 들어, 마이크로프로세서 속도, 메모리 용량, 데이터 전송 대역폭, 소프트웨어 기능 등)의 발달은 일반적으로 다양한 산업에서 증가된 컴퓨터 애플리케이션에 기여했다. 예를 들어, 컴퓨터 기반의 의사결정 지원 시스템은 광 문자 인식(Optical Character Recognition: OCR) 및 관련된 텍스트 인식 애플리케이션과 같은 인식 시스템에서 이용된다.
스캐너 또는 광 이미저(imager)는 처음에 그림을 "디저털화"하기 위해(예를 들어, 컴퓨팅 시스템내로 이미지를 입력하기 위해) 개발되었다. 그 후, 그러한 시스템은 그외 다른 인쇄 및 활자 소재에 적용되었고, OCR 시스템은 점차 다수의 컴퓨터 애플리케이션으로 확장되었다. OCR 기술은 가능한 글꼴의 종류의 제한되거나 한정된 선택을 인식하도록 조정될 수 있다. 그러한 시스템은 일반적으로 문자를 기존 글꼴의 데이터베이스와 비교함으로써 문자를 "인식"할 수 있다. 글꼴이 일관성이 없다고 여겨지면, OCR 기술은 그러한 일관성 없는 텍스트의 비인식(non-recognition)을 나타내기 위해, 식별 불가능하거나 존재하지 않는 문자를 반환한다.
다양한 형태의 문서에 포함된 다양한 문자를 인식하기 위해 신경망(Neural Nets), HMM(Hidden Markov Models) 또는 KNN(K-Nerest-Neighbor) 방법에 기초한 문자 인식기가 이용될 수 있다. 또한, 다양한 글꼴이나 형태를 가진 문서에 대한 인식률을 높이기 위해 다량의 트레이닝 데이터를 이용하여 문자 학습을 통해 문자 인식 모델을 트레이닝할 필요가 있다. 그러나, 사람이 직접 문서를 촬영하거나 스캔하여 다량의 트레이닝 데이터를 수집하는 데에는 한계가 있는 문제가 있다. 제한된 트레이닝 데이터 세트(Training data set)는 문자를 분류하는데 있어서 오류를 발생시키고, 광학적 문자 인식 엔진의 분류 성능을 낮추는 요인이 된다.
몇몇 실시 예에 의해 해결하고자 하는 기술적 과제는, 자동으로 대량의 문자 학습을 위한 트레이닝 데이터를 생성하는 장치 및 방법을 제공하는 것이다.
또한, 몇몇 실시 예에 의해 해결하고자 하는 다른 기술적 과제는, 자동으로 트레이닝 데이터를 생성하면서도, 실제 문서의 특성을 반영한 트레이닝 데이터가 생성되도록 하는 장치 및 방법을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명의 기술분야에서의 통상의 기술자에게 명확하게 이해 될 수 있을 것이다.
상기 기술적 과제를 해결하기 위한, 본 발명의 몇몇 실시예에 따라 컴퓨팅 장치가 광학 문자 인식 장치의 문자 학습을 위한 트레이닝 데이터를 생성하는 방법은, 임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하는 단계, 상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하는 단계, 상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하는 단계 및 상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 상기 트레이닝 데이터를 생성하는 단계를 포함할 수 있다.
또한, 다른 몇몇 실시 예에 따르면, 상기 전자 문서를 획득하는 단계는 상기 텍스트의 유형 및 속성을 정의하는 매크로 변수를 포함하는 문서 템플릿을 결정하는 단계와, 상기 유형에 따른 상기 임의의 텍스트를 생성하는 단계와, 상기 임의의 텍스트를 상기 매크로 변수에 입력하는 단계 및 상기 문서 템플릿 내에서의 미리 정해진 위치에 상기 마커를 삽입하는 단계를 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따르면, 상기 문서 템플릿을 결정하는 단계는 샘플 문서를 입력 받는 단계와, 상기 샘플 문서에 포함된 샘플 텍스트의 위치에 따라서 상기 매크로 변수의 위치를 결정하는 단계를 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따르면, 상기 문서 템플릿은 표, 도형 및 이미지 중 하나 이상을 포함하는 객체를 더 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따르면, 상기 문서 템플릿을 결정하는 단계는 샘플 문서를 촬영한 샘플 이미지를 입력 받는 단계와, 상기 샘플 이미지로부터 샘플 텍스트가 표시된 영역을 인식하는 단계 및 상기 샘플 문서 내에서의 상기 샘플 텍스트가 표시된 영역의 위치에 따라 상기 매크로 변수의 위치를 결정하는 단계를 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따르면, 상기 전자 문서를 획득하는 단계는, 상기 샘플 텍스트의 특징을 추출하는 단계 및 상기 샘플 텍스트의 특징을 이용하여 상기 속성을 결정하는 단계를 더 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따르면, 상기 문서 템플릿을 결정하는 단계는 상기 매크로 변수를 포함하는 복수의 템플릿 구성요소를 포함하는 구성요소 목록을 디스플레이하는 단계와, 상기 복수의 템플릿 구성요소를 선택하는 사용자 입력을 입력 받는 단계 및 상기 복수의 템플릿 구성요소를 조합하여 상기 문서 템플릿을 구성하는 단계를 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따르면, 상기 텍스트 이미지를 추출하는 단계는 상기 마커가 상기 전자 문서 내에 삽입되는 미리 정해진 위치를 나타내는 마커 좌표값 및 상기 식별된 마커의 위치를 이용하여 상기 전자 문서에 대한 상기 촬상 이미지의 변환 행렬을 생성하는 단계 및 상기 텍스트 좌표값을 상기 변환 행렬을 이용하여 변환한 좌표값에 상응하는 영역에 위치한 상기 텍스트 이미지를 추출하는 단계를 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따른 트레이닝 데이터 생성 방법은, 상기 전자 문서를 프린팅 장치를 이용하여 출력하는 단계 및 화상 입력 장치를 이용하여 상기 출력된 문서에 대한 상기 촬상 이미지를 획득하는 단계를 더 포함할 수 있다.
또한, 또 다른 몇몇 실시 예에 따른 트레이닝 데이터 생성 방법은, 상기 전자 문서를 캡처한 캡처 이미지를 생성하는 단계를 더 포함하고, 상기 촬상 이미지는 상기 캡처 이미지를 화상 입력 장치에 의해 이미지가 왜곡되는 현상을 모델링한 왜곡 모델을 이용하여 변형한 것이며, 상기 왜곡 모델은 상기 캡쳐 이미지를 변환할 때마다 상기 캡쳐 이미지를 임의적으로 변환할 수 있다.
또한, 또 다른 몇몇 실시 예에 따르면, 상기 전자 문서를 캡처한 캡처 이미지를 생성하는 단계를 더 포함하고, 상기 촬상 이미지는 상기 캡처 이미지를 임의의 각도로 회전하고, 임의의 배율로 스케일(scale)을 변경한 것일 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명의 몇몇 실시예에 따른 트레이닝 데이터 생성 장치는, 프로세서 및 광학 문자 인식 장치의 문자 학습을 위한 트레이닝 데이터를 저장하는 데이터베이스를 포함하고, 상기 프로세서는 임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하고, 상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하며, 상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하고, 상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 상기 트레이닝 데이터를 상기 데이터베이스에 저장할 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명의 몇몇 실시예에 따른 광학 문자 인식 시스템은, 임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하고, 상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하며, 상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하고, 상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 트레이닝 데이터를 생성하는 트레이닝 데이터 생성 장치 및 상기 트레이닝 데이터를 학습하여 문자 인식 모델을 생성하고, 입력 받은 이미지를 상기 문자 인식 모델에 입력하여 텍스트를 출력하는 광학 문자 인식 장치를 포함할 수 있다.
상기 기술적 과제를 해결하기 위한, 본 발명의 몇몇 실시예에 따른 비일시적(non-transitory) 컴퓨터 판독 가능한 매체에 기록된 컴퓨터 프로그램은, 상기 컴퓨터 프로그램의 명령어들이 컴퓨팅 장치의 프로세서에 의해 실행되는 경우에, 임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하는 단계, 상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하는 단계, 상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하는 단계, 및 상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 트레이닝 데이터를 생성하는 단계를 포함하는 동작이 수행되는 것을 특징으로 할 수 있다.
도 1은 몇몇 실시 예에 따라 트레이닝 데이터 생성 장치가 트레이닝 데이터를 제공하는 구조를 설명하기 위한 도면이다.
도 2는 몇몇 실시 예에 따른 트레이닝 데이터 생성 장치를 이용한 광학 문자 인식 시스템의 구조를 도시한 도면이다.
도 3은 몇몇 실시 예에 따라 트레이닝 데이터를 생성하는 프로세스를 도시한 도면이다.
도 4는 몇몇 실시 예에 따라 생성된 전자 문서의 예시를 설명하기 위한 도면이다.
도 5는 몇몇 실시 예에 따라 촬상 이미지로부터 텍스트 이미지를 추출하는 방법에 대한 개념을 설명하기 위한 도면이다.
도 6은 몇몇 실시 예에 따라 전자 문서를 생성하는 프로세스를 도시한 도면이다.
도 7은 일 실시 예에 따라 문서 템플릿을 결정하는 방법을 설명하기 위한 도면이다.
도 8은 다른 일 실시 예에 따라 문서 템플릿을 결정하는 방법을 설명하기 위한 도면이다.
도 9는 또 다른 일 실시 예에 따라 문서 템플릿을 결정하는 방법을 설명하기 위한 도면이다.
도 10 및 도 11은 몇몇 실시 예에 따라 변환 행렬을 이용하여 텍스트 이미지를 추출하는 프로세스를 설명하기 위한 도면이다.
도 12는 몇몇 실시 예에 따라 트레이닝 데이터 생성 장치가 촬상 이미지를 획득하는 방법을 설명하기 위한 도면이다.
도 13은 다른 몇몇 실시 예에 따라 트레이닝 데이터 생성 장치가 촬상 이미지를 획득하는 방법을 설명하기 위한 도면이다.
도 14는 몇몇 실시 예에 따른 트레이닝 데이터 생성 장치의 구조를 설명하기 위한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
이하, 도면들을 참조하여 본 발명의 몇몇 실시예들을 설명한다.
도 1은 몇몇 실시 예에 따라 트레이닝 데이터 생성 장치가 트레이닝 데이터를 제공하는 구조를 설명하기 위한 도면이다.
몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 문서 템플릿(10)을 이용하여 트레이닝 데이터(20)를 생성할 수 있다. 여기서, 문서 템플릿(10)은 트레이닝 데이터(20)를 생성하기 위한 전자 문서의 서식을 의미한다. 몇몇 실시 예에 따르면, 문서 템플릿(10)은 텍스트를 입력하기 위한 매크로 변수와 텍스트가 아닌 객체를 포함할 수 있다. 여기서, 객체는 표, 도형 또는 이미지 등 문서에 입력될 수 있는 데이터를 의미한다. 문서 템플릿은 표, 도형 및 이미지 중 하나 이상을 포함하는 객체를 포함할 수 있다. 또한, 매크로 변수는 미리 정해진 명령어를 실행함으로써 매크로 변수의 문서 템플릿(10) 내에서의 위치에 텍스트를 입력하기 위해 문서 템플릿(10)에 설정된 변수를 의미한다. 미리 정해진 명령어에 의해 수행되는 동작은 임의의 텍스트를 생성하는 동작을 포함할 수 있다. 몇몇 실시 예에 따르면 매크로 변수에 따라서 그 매크로 변수에 입력되는 텍스트의 종류가 결정될 수 있다. 예를 들면, 매크로 변수 "${P}"에는 특수문자, 매크로 변수 "${H}"에는 한글 텍스트, 매크로 변수 "${D}"에는 숫자가 입력되도록 각 매크로 변수가 설정될 수 있다.
문서 템플릿(10)은 실제 사용되는 문서와 유사한 형태를 정의할 수 있다. 매크로 변수와 객체로 구성된 문서 템플릿(10)을 이용하여 트레이닝 데이터(20)를 생성하기 위한 전자 문서를 생성하면, 트레이닝 데이터 생성 장치(100)는 실제 사용되는 문서의 특성과 유사한 특성을 가지는 전자 문서를 생성할 수 있다. 여기서, 유사한 특성을 가진다고 함은 텍스트의 색상, 크기, 글씨체나 문서에 포함된 표, 배경 색상, 워터마크 등 광학 문자 인식에 영향을 미치는 특징이 유사한 것을 의미한다.
트레이닝 데이터 생성 장치(100)는 전자 문서를 이미지의 형태로 변환한 촬상 이미지를 획득하고, 전자 문서와 촬상 이미지를 이용하여 트레이닝 데이터(20)를 생성할 수 있다. 여기서, 트레이닝 데이터 생성 장치(100)는 전자 문서를 이용하여 이미지 상에서 텍스트가 표시된 영역의 위치를 결정하고, 결정된 영역의 이미지를 크롭(crop)할 수 있다. 촬상 이미지로부터 추출된 텍스트가 표시된 이미지는 텍스트 이미지로 언급될 수 있다. 트레이닝 데이터 생성 장치(100)는 텍스트 이미지에 전자 문서 상의 텍스트를 라벨(label)로 부여함으로써 트레이닝 데이터(20)를 생성할 수 있다. 즉, 트레이닝 데이터 생성 장치(100)는 텍스트 이미지와 텍스트가 쌍으로 매칭된 트레이닝 데이터(20)를 생성할 수 있다. 트레이닝 데이터 생성 장치(100)는 데이터를 처리할 수 있는 컴퓨팅 장치로 구성될 수 있다.
몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)에 의해 생성된 트레이닝 데이터(20)는 데이터베이스(110)에 저장될 수 있다. 데이터베이스(110)는 저장된 트레이닝 데이터(20)를 광학 문자 인식 장치(120)에 배포할 수 있다. 광학 문자 인식 장치(120)는 트레이닝 데이터(20)를 학습한 결과를 이용하여 이미지로부터 텍스트를 인식할 수 있다.
몇몇 실시 예에 따라 문서 템플릿(10)을 이용하여 전자 문서를 생성하고, 그 전자 문서로부터 트레이닝 데이터(20)를 생성하면, 광학 문자 인식 장치(120)가 그 트레이닝 데이터(20)를 학습하여 일정한 형태의 문서에 대한 인식률이 높은 문자 인식 모델을 구성할 수 있다. 예를 들면, 보험사의 경우 유사한 형태를 가지는 병원 영수증을 촬영한 이미지들을 고객으로부터 받아 영수증에 기재된 내용을 증빙으로 사용한다. 따라서, 본 실시 예에 따라 영수증의 형태와 동일 또는 유사한 형태를 정의한 문서 템플릿(10)을 이용하여 생성된 트레이닝 데이터(20)를 학습하여 생성된 문자 인식 모델을 이용하여 영수증에 기재된 텍스트를 자동으로 인식하는 광학 문자 인식 장치(120)가 이용될 수 있다.
도 2는 몇몇 실시 예에 따른 트레이닝 데이터 생성 장치를 이용한 광학 문자 인식 시스템의 구조를 도시한 도면이다.
몇몇 실시 예에 따른 광학 문자 인식 시스템(1)은, 트레이닝 데이터 생성 장치(100) 및 광학 문자 인식 장치(120)를 포함할 수 있다.
트레이닝 데이터 생성 장치(100)는 문서 템플릿(10)을 이용하여 생성된 트레이닝 데이터(20)를 광학 문자 인식 장치(120)에 전달할 수 있다. 광학 문자 인식 장치(120)는 트레이닝 데이터(20)를 학습하는 문자 학습기(121)를 포함할 수 있다. 문자 학습기(121)는 트레이닝 데이터(20)를 학습하여 문자 인식 모델(122)을 생성할 수 있다. 문자 인식 모델(122)은 문서를 촬영한 이미지(30)가 입력되면 이미지(30)에 포함된 텍스트(40)를 출력할 수 있다.
도 3은 몇몇 실시 예에 따라 트레이닝 데이터를 생성하는 프로세스를 도시한 도면이다.
문서를 촬영한 촬상 이미지에서 트레이닝 데이터(20)로 이용될 텍스트 이미지를 추출하기 위해서는 촬상 이미지 내에서 텍스트 이미지가 표시된 위치를 식별할 필요가 있다. 그러나, 문서를 촬영한 촬상 이미지 내에서는 문서가 회전되어 있거나, 배율이 다르거나, 왜곡되어 있을 수 있다. 이를 위해 트레이닝 데이터 생성 장치(100)는 임의의 텍스트와 촬상 이미지 내에서의 문서의 위치를 식별하기 위한 마커를 포함하는 전자 문서를 획득할 수 있다(S310). 마커는 점, 바코드, 이미지 등 다양한 형태로 변형될 수 있다. 여기서, 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 문서 템플릿(10)을 이용하여 전자 문서를 생성할 수 있다. 또한, 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치는 생성된 전자 문서 내에서 전자 문서에 포함된 텍스트의 위치를 나타내는 텍스트 좌표값을 수집할 수 있다. 여기서, 텍스트 좌표값은 전자 문서를 렌더링(rendering)할 때 텍스트가 렌더링되는 위치를 나타내는 좌표값일 수 있다.
이후, 단계 S320에서, 트레이닝 데이터 생성 장치(100)는 전자 문서에 대한 촬상 이미지를 획득하고, 촬상 이미지 내에서 마커의 위치를 식별할 수 있다. 여기서, 촬상 이미지는 전자 문서를 출력한 후 화상 입력 장치를 이용해 전자 문서를 촬영하여 획득되는 이미지, 또는 촬영하여 얻어진 이미지 데이터와 동일하거나 유사한 특성을 가지는 이미지를 의미한다.
이후, 단계 S330에서, 트레이닝 데이터 생성 장치(100)는 마커의 위치를 기준으로 전자 문서에 포함된 텍스트의 위치에 상응하는 영역의 이미지를 텍스트 이미지로 추출할 수 있다. 트레이닝 데이터 생성 장치(100)는 전자 문서 내에서의 마커의 위치와 대한 텍스트의 위치를 가지고 있으므로, 이를 이용하여 촬상 이미지 내에서 식별된 마커의 위치를 기준으로 텍스트 이미지의 촬상 이미지 내에서의 위치를 결정할 수 있다.
이후, 단계 S340에서, 트레이닝 데이터 생성 장치(100)는 추출된 텍스트 이미지와 그에 상응하는 텍스트가 쌍으로 매칭된 트레이닝 데이터(20)를 생성할 수 있다. 트레이닝 데이터 생성 장치(100)는 단계 S310 내지 S340을 반복 수행할 수 있다. 단계 S310가 수행될 때마다 전자 문서에 포함되는 임의의 텍스트가 임의적으로 변경됨으로써, 트레이닝 데이터 생성 장치(100)는 다량의 트레이닝 데이터(20)를 생성할 수 있다.
도 4는 몇몇 실시 예에 따라 생성된 전자 문서의 예시를 설명하기 위한 도면이다.
도 4를 참조하면, 몇몇 실시 예에 따른 전자 문서(400)는 임의의 텍스트(405), 마커(420) 및 표(430) 등의 객체를 포함할 수 있다. 도 4에서 마커(420)는 복수의 기준점의 형태로 도시되었으나, 마커(420)의 형태는 실시 예에 따라서 변경될 수 있다.
트레이닝 데이터 생성 장치(100)는 문서 템플릿(10)의 매크로 변수에 임의의 텍스트(405)를 입력하고, 마커(420)를 삽입함으로써 전자 문서(400)를 생성할 수 있다. 임의의 텍스트(405)는 전자 문서(400)를 생성할 때마다 임의적으로 변경될 수 있다.
도 5는 몇몇 실시 예에 따라 촬상 이미지로부터 텍스트 이미지를 추출하는 방법에 대한 개념을 설명하기 위한 도면이다.
트레이닝 데이터 생성 장치(100)는 촬상 이미지(500)로부터 텍스트 이미지(510)를 추출하기 위해 촬상 이미지(500) 내에서 마커(520)의 위치를 식별할 수 있다. 트레이닝 데이터 생성 장치(100)는 전자 문서(400) 내에서의 마커(420)의 위치와 촬상 이미지(500) 내에서의 마커(520)의 위치를 이용하여 전자 문서(400) 내에서의 좌표와 촬상 이미지(500) 내에서의 좌표가 대응되는 관계를 산출할 수 있다.
또한, 트레이닝 데이터 생성 장치(100)는 전자 문서(400) 내에서의 텍스트(410)의 위치를 나타내는 텍스트 좌표값을 수집할 수 있다. 따라서, 트레이닝 데이터 생성 장치(100)는 산출된 관계에 따라 텍스트 좌표값에 대응되는 촬상 이미지(500) 내에서의 좌표값을 산출함으로써 텍스트 이미지(510)의 위치를 식별할 수 있다.
도 6은 몇몇 실시 예에 따라 전자 문서를 생성하는 프로세스를 도시한 도면이다.
먼저, 단계 S610에서 트레이닝 데이터 생성 장치(100)는 전자 문서를 생성하기 위한 문서 템플릿(10)을 결정할 수 있다. 문서 템플릿(10)은 사용자에 의해 설정되거나, 트레이닝 데이터 생성 장치(100)가 스스로 생성할 수 있다. 여기서, 문서 템플릿(10)은 매크로 변수를 포함할 수 있다. 또한, 매크로 변수는 텍스트의 유형 및 속성을 정의할 수 있다.
몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 단계 S610에서 문서 템플릿 목록을 출력하고, 문서 템플릿 목록에서 문서 템플릿을 선택하는 사용자 입력에 따라서 문서 템플릿을 결정할 수 있다. 도 7을 참조하면, 트레이닝 데이터 생성 장치(100)는 문서 템플릿 목록을 표시하는 사용자 인터페이스(700)를 출력할 수 있다. 사용자 인터페이스(700)에 표시된 템플릿 목록 중 문서 템플릿을 지시하는 항목(710)이 선택되면, 트레이닝 데이터 생성 장치(100)는 선택된 항목(710)에 상응하는 문서 템플릿을 결정할 수 있다.
다른 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 단계 S610에서 샘플 이미지를 입력 받고, 샘플 이미지를 이용하여 문서 템플릿을 생성할 수 있다. 도 8을 참조하면, 트레이닝 데이터 생성 장치(100)는 샘플 이미지를 입력 받을 수 있다. 여기서, 샘플 이미지는 샘플 문서(800)를 촬영하여 얻은 이미지를 의미할 수 있다. 예를 들어, 트레이닝 데이터 생성 장치(100)는 화상 입력 장치(예를 들어, 카메라, 스캐너 등)를 통해 실제 영수증 등을 촬영한 이미지를 입력 받을 수 있다.
트레이닝 데이터 생성 장치(100)는 샘플 문서(800) 내에서 샘플 텍스트가 표시된 영역(810-1, 810-2)을 인식할 수 있다. 여기서, 트레이닝 데이터 생성 장치(100)는 샘플 텍스트가 어떤 텍스트인지 판단하지 못하더라도, 텍스트인 것으로 판단되는 이미지의 영역을 분류할 수 있다. 트레이닝 데이터 생성 장치(100)는 샘플 텍스트가 표시된 영역(810-1)의 위치에 따라 문서 템플릿(10)에 포함되는 매크로 변수(10-1)의 위치를 결정할 수 있다. 또한, 트레이닝 데이터 생성 장치(100)는 표(810-1)나 이미지(820-2) 등 텍스트가 아닌 객체가 표시된 영역의 위치를 식별하고, 식별된 위치에 따라서 문서 템플릿(10)에 상응하는 객체(10-1, 10-3)를 삽입할 수 있다.
또 다른 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 단계 S610에서 이미지가 아닌 전자 문서 형태의 샘플 문서를 입력 받고, 샘플 문서에 포함된 샘플 텍스트와 샘플 객체의 위치에 따라서 문서 템플릿(10)에 포함되는 매크로 변수와 객체의 위치를 결정할 수 있다.
몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 인식된 텍스트(810-1, 810-2)의 특징(예를 들어, 크기, 색상 등)을 추출할 수 있다. 트레이닝 데이터 생성 장치(100)는 추출된 특징에 따라서 매크로 변수에 텍스트의 속성을 설정할 수 있다.
또 다른 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 단계 S610에서 복수의 템플릿 구성요소를 포함하는 구성요소 목록 중에서 템플릿 구성요소를 선택할 수 있는 GUI(Graphic User Interface)(900)를 디스플레이할 수 있다. 여기서, 템플릿 구성요소는 문서 템플릿(10)을 구성하기 위해 제공되는 라이브러리에 포함된 객체일 수 있다. 예를 들어, 템플릿 구성요소는 매크로 변수, 표, 이미지 등을 문서 템플릿(10)에 삽입하기 위한 객체일 수 있다.
도 9를 참조하면, 트레이닝 데이터 생성 장치(100)는 GUI(900)에 대한 사용자 입력에 따라서 템플릿 구성요소를 선택하고, 선택된 템플릿 구성요소를 조합하여 매크로 변수(10-1), 표(10-2), 이미지(10-3), 및 도형 등이 포함된 문서 템플릿(10)을 구성할 수 있다.
이후, 단계 S620에서 트레이닝 데이터 생성 장치(100)는 결정된 문서 템플릿(10)의 매크로 변수에 입력될 임의의 텍스트를 생성할 수 있다. 여기서, 트레이닝 데이터 생성 장치(100)는 매크로 변수에 따라서 구분되는 텍스트의 유형에 따라서 텍스트를 생성할 수 있다. 예를 들어, 트레이닝 데이터 생성 장치(100)는 매크로 변수가 "${P}"인 경우 특수문자를 생성하고, 매크로 변수가 "${H}"인 경우에는 한글 텍스트를 생성하고, 매크로 변수가 "${D}"인 경우에는 숫자를 생성할 수 있다.
이후 단계 S630에서, 트레이닝 데이터 생성 장치(100)는 생성된 텍스트를 매크로 변수에 입력할 수 있다. 여기서, 트레이닝 데이터 생성 장치(100)는 매크로 변수에 대해 설정된 텍스트의 속성에 따라서 텍스트를 입력할 수 있다. 여기서, 텍스트의 속성은 텍스트의 폰트나 색상 등 텍스트의 특징을 정의하는 값을 의미한다.
또한, 단계 S640에서, 트레이닝 데이터 생성 장치(100)는 결정된 문서 템플릿(10)에 마커를 삽입할 수 있다. 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 미리 결정된 위치에 마커를 삽입할 수 있다. 다른 실시 예에 따르면, 마커는 텍스트나 다른 객체가 표시되지 않은 임의의 위치에 삽입될 수도 있으나, 이 경우 트레이닝 데이터 생성 장치(100)는 마커가 삽입된 위치를 나타내는 좌표값을 생성되는 전자 문서에 포함시킬 수 있다.
결과적으로, 트레이닝 데이터 생성 장치(100)는 매크로 변수에 입력된 텍스트와 마커를 포함하는 전자 문서를 생성할 수 있다(S650).
도 10 및 도 11은 몇몇 실시 예에 따라 변환 행렬을 이용하여 텍스트 이미지를 추출하는 프로세스를 설명하기 위한 도면이다.
촬상 이미지로부터 텍스트 이미지를 추출하기 위해, 단계 S1010에서, 트레이닝 데이터 생성 장치(100)는 전자 문서 내에서의 마커의 위치를 나타내는 마커 좌표값과 도 3의 단계 S320에서 식별된 마커의 위치를 이용하여 전자 문서에 대한 촬상 이미지의 변환 행렬을 생성할 수 있다. 여기서, 도 3의 단계 S320에서 식별된 마커의 위치는 좌표값으로 표현될 수 있다. 또한, 변환 행렬은 전자 문서의 좌표값과 촬상 이미지의 좌표값 사이의 변환에 사용되는 행렬을 의미한다. 트레이닝 데이터 생성 장치(100)는 전자 문서에 포함된 마커가 촬상 이미지 내의 어떤 위치에 위치하는지에 기초하여 전자 문서 상의 좌표가 촬상 이미지 내에서 이동 변환, 회전 변환, 크기 변환 등이 어떻게 반영되었는지에 따라서 변환 행렬을 산출할 수 있다.
이후, 단계 S1020에서, 트레이닝 데이터 생성 장치(100)는 텍스트 좌표값을 변환 행렬을 이용하여 변환할 수 있다. 도 11을 참조하면, 트레이닝 데이터 생성 장치(100)는 텍스트 좌표값(1110)을 변환 행렬(1120)에 곱한 결과로 획득된 좌표값(1130)을 텍스트 좌표값(1110)에 상응하는 촬상 이미지 내에서의 좌표값으로 결정할 수 있다.
이후, 단계 S1030에서, 트레이닝 데이터 생성 장치(100)는 변환된 좌표값(1130)을 이용하여 텍스트 이미지를 추출할 수 있다. 예를 들어, 트레이닝 데이터 생성 장치(100)는 변환된 좌표값(1130)에 상응하는 영역을 크롭(crop)한 이미지를 생성할 수 있다.
도 12는 몇몇 실시 예에 따라 트레이닝 데이터 생성 장치가 촬상 이미지를 획득하는 방법을 설명하기 위한 도면이다.
몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 전자 문서(400)가 생성되면, 생성된 전자 문서(400)를 프린팅 장치(1210)를 통해 실제 문서(50)(예를 들어, 종이 문서)로 출력할 수 있다. 이후, 트레이닝 데이터 생성 장치(100)는 출력된 실제 문서(50)를 화상 입력 장치를 이용하여 촬영한 촬상 이미지(500)를 획득할 수 있다.
도 13은 다른 몇몇 실시 예에 따라 트레이닝 데이터 생성 장치가 촬상 이미지를 획득하는 방법을 설명하기 위한 도면이다.
다른 몇몇 실시 예에 따르면, 단계 S1310에서, 트레이닝 데이터 생성 장치(100)는 전자 문서를 캡쳐한 캡쳐 이미지를 생성할 수 있다. 캡쳐 이미지는 출력 장치(예를 들어, 디스플레이 장치 등)를 통해서 전자 문서가 출력되는 화상을 이미지 데이터로 생성한 것을 의미할 수 있다.
이후, 단계 S1320에서 트레이닝 데이터 생성 장치(100)는 캡쳐 이미지에 대한 영상 처리를 수행할 수 있다. 여기서, 영상 처리는 캡쳐 이미지가 실제 문서를 촬영한 이미지의 특성을 가지도록 변환하는 프로세스일 수 있다. 예를 들어, 실제 문서를 화상 입력 장치를 통해 촬영할 경우, 촬영된 영상은 실제 피사체가 화상 입력 장치의 특성으로 인해 왜곡된 영상일 수 있다. 따라서, 화상 입력 장치로 인한 이미지의 왜곡을 반영하기 위하여, 트레이닝 데이터 생성 장치(100)는 화상 입력 장치에 의해 이미지가 왜곡되는 현상을 모델링한 왜곡 모델에 캡쳐 이미지를 입력하고, 왜곡 모델로부터 출력되는 촬상 이미지를 획득할 수 있다. 몇몇 실시 예에 따르면, 왜곡 모델은 캡쳐 이미지를 변환할 때마다 캡쳐 이미지가 화상 입력 장치의 특성에 따라 임의적으로 변환되도록 하는 특징을 가질 수 있다. 다른 예를 들면, 화상 입력 장치는 실제 문서와 화상 입력 장치 사이의 거리, 촬영 방향 등으로 인해 촬상 이미지에 포함되는 텍스트의 크기, 방향 또는 형태 등이 변경될 수 있다. 트레이닝 데이터 생성 장치(100)는 실제 문서와 화상 입력 장치 사이의 거리, 촬영 방향 등에 따른 이미지의 왜곡을 반영하는 영상 처리를 통해 촬상 이미지를 획득할 수 있다.
다른 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 단계 S1320에서 캡쳐 이미지를 임의의 각도로 회전하고, 임의의 배율로 스케일(scale)을 변경할 수 있다. 트레이닝 데이터 생성 장치(100)는 캡쳐 이미지를 회전 및 확대/축소한 촬상 이미지를 획득할 수도 있다.
따라서, 단계 S1320에서 수행한 영상 처리의 결과, 트레이닝 데이터 생성 장치(100)는 촬상 이미지를 획득할 수 있다(S1330).
도 14는 몇몇 실시 예에 따른 트레이닝 데이터 생성 장치의 구조를 설명하기 위한 도면이다. 트레이닝 데이터 생성 장치(100)는 프로세서(101), 메모리(102), 네트워크 인터페이스(103) 및 버스(104)를 포함할 수 있다. 다른 몇몇 실시 예에 따르면, 트레이닝 데이터 생성 장치(100)는 데이터베이스(110)를 포함할 수도 있다. 버스(104)는 구성요소들(101, 102, 103, 104)을 서로 연결하고, 구성요소들(101, 102, 103, 104) 간의 통신(예를 들어, 제어 메시지 또는 데이터)을 전달하는 회로를 포함할 수 있다. 프로세서(101)는 중앙처리장치, 어플리케이션 프로세서, 및 커뮤니케이션 프로세서(Communication Processor; CP) 중 하나 또는 그 이상을 포함할 수 있다. 프로세서(101)는, 예를 들면, 트레이닝 데이터 생성 장치(100)의 적어도 하나의 다른 구성요소들의 제어 및/또는 통신에 관한 연산이나 데이터 처리를 실행할 수 있다.
메모리(102)는, 휘발성 및/또는 비휘발성 메모리를 포함할 수 있다. 메모리(102)는, 예를 들면, 트레이닝 데이터 생성 장치(100)의 적어도 하나의 다른 구성요소에 관련된 명령 또는 데이터를 저장할 수 있다. 예를 들어, 메모리(102)는 소프트웨어 내지 프로그램을 저장할 수 있다. 프로그램은, 예를 들어, 커널, 미들웨어, 어플리케이션 프로그램 인터페이스, 및/또는 어플리케이션(어플리케이션 프로그램) 등을 포함할 수 있다. 커널, 미들웨어, 또는 어플리케이션 프로그램 인터페이스의 적어도 일부는 운영 시스템으로 저장될 수 있다. 커널은, 예를 들어, 다른 프로그램들에 구현된 동작 또는 기능을 실행하는데 사용되는 시스템 리소스들을 제어 또는 관리할 수 있다. 또한, 커널은 미들웨어 또는 어플리케이션에서 트레이닝 데이터 생성 장치(100)의 개별 구성요소에 접근하여 시스템 리소스들을 제어 또는 관리할 수 있는 인터페이스를 제공할 수 있다.
미들웨어는, 예를 들어, 어플리케이션 프로그램 인터페이스 또는 어플리케이션이 커널과 통신하여 데이터를 송신 및 수신할 수 있도록 중개할 수 있다. 또한, 미들웨어는 어플리케이션으로부터 수신된 하나 이상의 작업 요청들을 우선 순위에 따라 처리할 수 있다. 예를 들면, 미들웨어는 어플리케이션 프로그램 중 적어도 하나에 트레이닝 데이터 생성 장치(100)의 시스템 리소스를 사용할 수 있는 우선 순위를 부여하고, 하나 이상의 작업 요청들을 처리할 수 있다. 어플리케이션 프로그램 인터페이스는 어플리케이션이 커널 또는 미들웨어에서 제공되는 기능을 제어하기 위한 인터페이스로, 예를 들어, 파일 제어, 영상 처리 또는 문자 제어 등을 위한 적어도 하나의 인터페이스 또는 함수(예를 들어, 명령어)를 포함할 수 있다.
네트워크 인터페이스(103)는, 예를 들어, 트레이닝 데이터 생성 장치(100)와 외부 장치 사이의 통신을 설정할 수 있다. 예를 들어 네트워크 인터페이스(103)는 유선 또는 무선 통신을 통해서 데이터베이스(110)에 트레이닝 데이터(20)를 저장할 수 있다.
프로세서(101)는 메모리(102)에 저장된 명령을 실행하여 전자 문서를 획득하고, 촬상 이미지 내에서 마커의 위치를 식별하여 텍스트 이미지를 추출하며, 라벨링(labeling)된 텍스트 이미지를 포함하는 트레이닝 데이터(20)를 생성할 수 있다.
지금까지 설명된 본 발명의 실시예에 따른 방법들은 컴퓨터가 읽을 수 있는 코드로 구현된 컴퓨터프로그램의 실행에 의하여 수행될 수 있다. 상기 컴퓨터프로그램은 인터넷 등의 네트워크를 통하여 제1 컴퓨팅 장치로부터 제2 컴퓨팅 장치에 전송되어 상기 제2 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 제2 컴퓨팅 장치에서 사용될 수 있다. 상기 제1 컴퓨팅 장치 및 상기 제2 컴퓨팅 장치는, 서버 장치, 클라우드 서비스를 위한 서버 풀에 속한 물리 서버, 데스크탑 피씨와 같은 고정식 컴퓨팅 장치를 모두 포함한다.
상기 컴퓨터프로그램은 DVD-ROM, 플래시 메모리 장치 등의 기록매체에 저장된 것일 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다.

Claims (14)

  1. 컴퓨팅 장치가 광학 문자 인식 장치의 문자 학습을 위한 트레이닝 데이터를 생성하는 방법에 있어서,
    임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하는 단계;
    상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하는 단계;
    상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하는 단계; 및
    상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 상기 트레이닝 데이터를 생성하는 단계;를 포함하는,
    트레이닝 데이터 생성 방법.
  2. 제1항에 있어서
    상기 전자 문서를 획득하는 단계는,
    상기 텍스트의 유형 및 속성을 정의하는 매크로 변수를 포함하는 문서 템플릿을 결정하는 단계와,
    상기 유형에 따른 상기 임의의 텍스트를 생성하는 단계와,
    상기 임의의 텍스트를 상기 매크로 변수에 입력하는 단계 및
    상기 문서 템플릿 내에서의 미리 정해진 위치에 상기 마커를 삽입하는 단계를 포함하는,
    트레이닝 데이터 생성 방법.
  3. 제2항에 있어서,
    상기 문서 템플릿을 결정하는 단계는,
    샘플 문서를 입력 받는 단계와,
    상기 샘플 문서에 포함된 샘플 텍스트의 위치에 따라서 상기 매크로 변수의 위치를 결정하는 단계를 포함하는,
    트레이닝 데이터 생성 방법.
  4. 제2항에 있어서,
    상기 문서 템플릿은,
    표, 도형 및 이미지 중 하나 이상을 포함하는 객체를 더 포함하는,
    트레이닝 데이터 생성 방법.
  5. 제2항에 있어서,
    상기 문서 템플릿을 결정하는 단계는,
    샘플 문서를 촬영한 샘플 이미지를 입력 받는 단계와,
    상기 샘플 이미지로부터 샘플 텍스트가 표시된 영역을 인식하는 단계 및
    상기 샘플 문서 내에서의 상기 샘플 텍스트가 표시된 영역의 위치에 따라 상기 매크로 변수의 위치를 결정하는 단계를 포함하는,
    트레이닝 데이터 생성 방법.
  6. 제5항에 있어서,
    상기 전자 문서를 획득하는 단계는,
    상기 샘플 텍스트의 특징을 추출하는 단계 및
    상기 샘플 텍스트의 특징을 이용하여 상기 속성을 결정하는 단계를 더 포함하는,
    트레이닝 데이터 생성 방법.
  7. 제2항에 있어서,
    상기 문서 템플릿을 결정하는 단계는,
    상기 매크로 변수를 포함하는 복수의 템플릿 구성요소를 포함하는 구성요소 목록을 디스플레이하는 단계와,
    상기 복수의 템플릿 구성요소를 선택하는 사용자 입력을 입력 받는 단계 및
    상기 복수의 템플릿 구성요소를 조합하여 상기 문서 템플릿을 구성하는 단계를 포함하는,
    트레이닝 데이터 생성 방법.
  8. 제1항에 있어서,
    상기 텍스트 이미지를 추출하는 단계는,
    상기 마커가 상기 전자 문서 내에 삽입되는 미리 정해진 위치를 나타내는 마커 좌표값 및 상기 식별된 마커의 위치를 이용하여 상기 전자 문서에 대한 상기 촬상 이미지의 변환 행렬을 생성하는 단계 및
    상기 텍스트 좌표값을 상기 변환 행렬을 이용하여 변환한 좌표값에 상응하는 영역에 위치한 상기 텍스트 이미지를 추출하는 단계를 포함하는,
    트레이닝 데이터 생성 방법.
  9. 제1항에 있어서,
    상기 전자 문서를 프린팅 장치를 이용하여 출력하는 단계; 및
    화상 입력 장치를 이용하여 상기 출력된 문서에 대한 상기 촬상 이미지를 획득하는 단계;를 더 포함하는,
    트레이닝 데이터 생성 방법.
  10. 제1항에 있어서,
    상기 전자 문서를 캡처한 캡처 이미지를 생성하는 단계를 더 포함하고,
    상기 촬상 이미지는 상기 캡처 이미지를 화상 입력 장치에 의해 이미지가 왜곡되는 현상을 모델링한 왜곡 모델을 이용하여 변환한 것이며,
    상기 왜곡 모델은 상기 캡쳐 이미지를 변환할 때마다 상기 캡쳐 이미지를 임의적으로 변환하는,
    트레이닝 데이터 생성 방법.
  11. 제1항에 있어서,
    상기 전자 문서를 캡처한 캡처 이미지를 생성하는 단계를 더 포함하고,
    상기 촬상 이미지는 상기 캡처 이미지를 임의의 각도로 회전하고, 임의의 배율로 스케일(scale)을 변경한 것인,
    트레이닝 데이터 생성 방법.
  12. 프로세서; 및
    광학 문자 인식 장치의 문자 학습을 위한 트레이닝 데이터를 저장하는 데이터베이스를 포함하고,
    상기 프로세서는,
    임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하고, 상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하며, 상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하고, 상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 상기 트레이닝 데이터를 상기 데이터베이스에 저장하는,
    트레이닝 데이터 생성 장치.
  13. 임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하고, 상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하며, 상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하고, 상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 트레이닝 데이터를 생성하는 트레이닝 데이터 생성 장치; 및
    상기 트레이닝 데이터를 학습하여 문자 인식 모델을 생성하고, 입력 받은 이미지를 상기 문자 인식 모델에 입력하여 텍스트를 출력하는 광학 문자 인식 장치를 포함하는,
    광학 문자 인식 시스템.
  14. 비일시적(non-transitory) 컴퓨터 판독 가능한 매체에 기록된 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램의 명령어들이 컴퓨팅 장치의 프로세서에 의해 실행되는 경우에,
    임의의 텍스트, 마커, 및 상기 텍스트의 문서내 위치를 나타내는 텍스트 좌표값을 포함하는 전자 문서를 획득하는 단계;
    상기 전자 문서에 대한 촬상 이미지 내에서의 상기 마커의 위치를 식별하는 단계;
    상기 촬상 이미지 내에서 상기 마커의 위치를 기준으로 상기 텍스트 좌표값에 상응하는 영역의 텍스트 이미지를 추출하는 단계; 및
    상기 텍스트 이미지와 상기 텍스트가 쌍으로 매칭된 트레이닝 데이터를 생성하는 단계;를 포함하는 동작이 수행되는 것을 특징으로 하는,
    컴퓨터 프로그램.
KR1020180014884A 2018-02-07 2018-02-07 문자 학습 트레이닝 데이터 생성 장치 및 그 방법 KR20190095651A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180014884A KR20190095651A (ko) 2018-02-07 2018-02-07 문자 학습 트레이닝 데이터 생성 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180014884A KR20190095651A (ko) 2018-02-07 2018-02-07 문자 학습 트레이닝 데이터 생성 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20190095651A true KR20190095651A (ko) 2019-08-16

Family

ID=67806761

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180014884A KR20190095651A (ko) 2018-02-07 2018-02-07 문자 학습 트레이닝 데이터 생성 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20190095651A (ko)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
CN111325106A (zh) * 2020-01-22 2020-06-23 京东数字科技控股有限公司 生成训练数据的方法及装置
KR102149050B1 (ko) * 2020-04-24 2020-08-28 주식회사 애자일소다 인공지능을 이용한 ocr 기반 문서 분석 시스템 및 방법
CN111914846A (zh) * 2020-07-03 2020-11-10 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN112101356A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种图片中特定文本的定位方法、装置及存储介质
US10990876B1 (en) 2019-10-08 2021-04-27 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks
KR20210062971A (ko) * 2019-11-22 2021-06-01 금오공과대학교 산학협력단 딥러닝을 위한 인식 시험 학습 데이터 제공 시스템 및 방법
WO2021112930A1 (en) * 2019-12-02 2021-06-10 UiPath, Inc. Training optical character detection and recognition models for robotic process automation
KR20210075412A (ko) * 2019-12-13 2021-06-23 주식회사 한글과컴퓨터 표가 삽입된 이미지를 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
KR20210077251A (ko) * 2019-12-17 2021-06-25 주식회사 한글과컴퓨터 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
US11068738B1 (en) 2020-05-01 2021-07-20 UiPath, Inc. Text detection, caret tracking, and active element detection
KR102297355B1 (ko) * 2020-05-01 2021-09-01 유아이패스, 인크. 텍스트 검출, 캐럿 추적, 및 활성 엘리먼트 검출
KR20210122481A (ko) * 2020-04-01 2021-10-12 오스템임플란트 주식회사 전자 차트 관리 방법, 전자 차트 관리 서버 및 기록 매체
WO2021221713A1 (en) * 2020-05-01 2021-11-04 UiPath, Inc. Screen response validation of robot execution for robotic process automation
US11200441B2 (en) 2020-05-01 2021-12-14 UiPath, Inc. Text detection, caret tracking, and active element detection
KR102349506B1 (ko) * 2021-06-08 2022-01-14 주식회사 산돌메타랩 폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법
KR102352726B1 (ko) * 2020-10-13 2022-01-18 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
WO2022039330A1 (ko) * 2020-08-21 2022-02-24 주식회사 애자일소다 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
KR102375566B1 (ko) * 2020-11-17 2022-03-17 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서화 처리하는 전자 장치 및 그 동작 방법
KR102477177B1 (ko) 2022-04-14 2022-12-14 (주)프린파크 촬영된 문서에 대응하는 편집 가능한 문서 템플릿을 제공하기 위한 전자 장치 및 그 동작 방법
KR20240043468A (ko) 2022-09-27 2024-04-03 한국딥러닝 주식회사 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템 및 방법

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10990876B1 (en) 2019-10-08 2021-04-27 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks
US11599775B2 (en) 2019-10-08 2023-03-07 UiPath, Inc. Detecting user interface elements in robotic process automation using convolutional neural networks
CN110909733A (zh) * 2019-10-28 2020-03-24 世纪保众(北京)网络科技有限公司 基于ocr图片识别的模版定位方法、装置和计算机设备
KR20210062971A (ko) * 2019-11-22 2021-06-01 금오공과대학교 산학협력단 딥러닝을 위한 인식 시험 학습 데이터 제공 시스템 및 방법
US11810382B2 (en) 2019-12-02 2023-11-07 UiPath, Inc. Training optical character detection and recognition models for robotic process automation
WO2021112930A1 (en) * 2019-12-02 2021-06-10 UiPath, Inc. Training optical character detection and recognition models for robotic process automation
US11157783B2 (en) 2019-12-02 2021-10-26 UiPath, Inc. Training optical character detection and recognition models for robotic process automation
KR20210075412A (ko) * 2019-12-13 2021-06-23 주식회사 한글과컴퓨터 표가 삽입된 이미지를 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
KR20210077251A (ko) * 2019-12-17 2021-06-25 주식회사 한글과컴퓨터 표가 삽입된 이미지로부터 지식 데이터베이스의 구축이 가능한 데이터베이스 구축 장치 및 그 동작 방법
CN111325106B (zh) * 2020-01-22 2023-11-03 京东科技控股股份有限公司 生成训练数据的方法及装置
CN111325106A (zh) * 2020-01-22 2020-06-23 京东数字科技控股有限公司 生成训练数据的方法及装置
KR20210122481A (ko) * 2020-04-01 2021-10-12 오스템임플란트 주식회사 전자 차트 관리 방법, 전자 차트 관리 서버 및 기록 매체
KR102149050B1 (ko) * 2020-04-24 2020-08-28 주식회사 애자일소다 인공지능을 이용한 ocr 기반 문서 분석 시스템 및 방법
WO2021221712A1 (en) * 2020-05-01 2021-11-04 UiPath, Inc. Text detection, caret tracking, and active element detection
US11302093B2 (en) 2020-05-01 2022-04-12 UiPath, Inc. Text detection, caret tracking, and active element detection
WO2021221710A1 (en) * 2020-05-01 2021-11-04 UiPath, Inc. Text detection, caret tracking, and active element detection
WO2021221713A1 (en) * 2020-05-01 2021-11-04 UiPath, Inc. Screen response validation of robot execution for robotic process automation
WO2021221711A1 (en) * 2020-05-01 2021-11-04 UiPath, Inc. Text detection, caret tracking, and active element detection
US11080548B1 (en) 2020-05-01 2021-08-03 UiPath, Inc. Text detection, caret tracking, and active element detection
US11200441B2 (en) 2020-05-01 2021-12-14 UiPath, Inc. Text detection, caret tracking, and active element detection
US11734104B2 (en) 2020-05-01 2023-08-22 UiPath, Inc. Screen response validation of robot execution for robotic process automation
US11630549B2 (en) 2020-05-01 2023-04-18 UiPath, Inc. Text detection, caret tracking, and active element detection
US11625138B2 (en) 2020-05-01 2023-04-11 UiPath, Inc. Text detection, caret tracking, and active element detection
US11068738B1 (en) 2020-05-01 2021-07-20 UiPath, Inc. Text detection, caret tracking, and active element detection
KR102297355B1 (ko) * 2020-05-01 2021-09-01 유아이패스, 인크. 텍스트 검출, 캐럿 추적, 및 활성 엘리먼트 검출
US11461164B2 (en) 2020-05-01 2022-10-04 UiPath, Inc. Screen response validation of robot execution for robotic process automation
US11594007B2 (en) 2020-05-01 2023-02-28 UiPath, Inc. Text detection, caret tracking, and active element detection
CN111914846A (zh) * 2020-07-03 2020-11-10 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
CN111914846B (zh) * 2020-07-03 2024-05-24 苏州开心盒子软件有限公司 版面数据合成方法、设备及存储介质
WO2022039330A1 (ko) * 2020-08-21 2022-02-24 주식회사 애자일소다 가상 셀을 이용한 ocr 기반 문서 분석 시스템 및 방법
CN112101356A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种图片中特定文本的定位方法、装置及存储介质
KR102352726B1 (ko) * 2020-10-13 2022-01-18 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서로 변환할 수 있는 전자 장치 및 그 동작 방법
KR102375566B1 (ko) * 2020-11-17 2022-03-17 주식회사 한글과컴퓨터 종이로 인쇄된 진료비 영수증을 전자 문서화 처리하는 전자 장치 및 그 동작 방법
KR102349506B1 (ko) * 2021-06-08 2022-01-14 주식회사 산돌메타랩 폰트 인식을 위한 신경망 학습 데이터 생성 및 학습 결과를 반영한 생성 조건의 동적 설정 방법
KR102477177B1 (ko) 2022-04-14 2022-12-14 (주)프린파크 촬영된 문서에 대응하는 편집 가능한 문서 템플릿을 제공하기 위한 전자 장치 및 그 동작 방법
KR20230147513A (ko) 2022-04-14 2023-10-23 (주)프린파크 이미지에 기반한 문서 템플릿 생성 방법 및 장치
KR20240043468A (ko) 2022-09-27 2024-04-03 한국딥러닝 주식회사 한국어 가상이미지 생성기술을 이용한 대용량 문서 데이터 구축 시스템 및 방법

Similar Documents

Publication Publication Date Title
KR20190095651A (ko) 문자 학습 트레이닝 데이터 생성 장치 및 그 방법
US8732570B2 (en) Non-symbolic data system for the automated completion of forms
AU2006252025B2 (en) Recognition of parameterised shapes from document images
US8958644B2 (en) Creating tables with handwriting images, symbolic representations and media images from forms
JP2011008752A (ja) ドキュメント操作システム、ドキュメント操作方法およびそのためのプログラム
EP0461793B1 (en) Method for image analysis
JPH07200837A (ja) 画像データ解析方法
US11155102B2 (en) Image to script converter
JP2022066321A (ja) 情報処理装置及びプログラム
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN111767889A (zh) 公式识别方法、电子设备及计算机可读介质
JP2015069256A (ja) 文字識別システム
Zhao et al. DetectGAN: GAN-based text detector for camera-captured document images
CN112396057A (zh) 一种字符识别方法、装置及电子设备
CN115147858A (zh) 手写体表单图像数据生成方法、装置、设备及介质
Pattnaik et al. A Framework to Detect Digital Text Using Android Based Smartphone
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2021056796A (ja) 構造認識システム、構造認識装置、構造認識方法、及びプログラム
CN113762292A (zh) 一种训练数据获取方法、装置及模型训练方法、装置
JP4741363B2 (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
JP4697387B2 (ja) 原稿画像判定装置、原稿画像判定方法及びそのプログラム
KR102280240B1 (ko) 문서 이미지 기반의 관심 정보 추출 장치 및 방법
JP7231529B2 (ja) 情報端末装置、サーバ及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application