KR20090079226A - 하드카피 서식으로부터 서식 정의의 자동 발생 - Google Patents

하드카피 서식으로부터 서식 정의의 자동 발생 Download PDF

Info

Publication number
KR20090079226A
KR20090079226A KR1020097009355A KR20097009355A KR20090079226A KR 20090079226 A KR20090079226 A KR 20090079226A KR 1020097009355 A KR1020097009355 A KR 1020097009355A KR 20097009355 A KR20097009355 A KR 20097009355A KR 20090079226 A KR20090079226 A KR 20090079226A
Authority
KR
South Korea
Prior art keywords
fields
computer
format
definition
image
Prior art date
Application number
KR1020097009355A
Other languages
English (en)
Inventor
야콥 나본
아리 쇼틀랜드
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20090079226A publication Critical patent/KR20090079226A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04HBUILDINGS OR LIKE STRUCTURES FOR PARTICULAR PURPOSES; SWIMMING OR SPLASH BATHS OR POOLS; MASTS; FENCING; TENTS OR CANOPIES, IN GENERAL
    • E04H1/00Buildings or groups of buildings for dwelling or office purposes; General layout, e.g. modular co-ordination or staggered storeys
    • E04H1/02Dwelling houses; Buildings for temporary habitation, e.g. summer houses
    • E04H1/04Apartment houses arranged in two or more levels
    • EFIXED CONSTRUCTIONS
    • E04BUILDING
    • E04HBUILDINGS OR LIKE STRUCTURES FOR PARTICULAR PURPOSES; SWIMMING OR SPLASH BATHS OR POOLS; MASTS; FENCING; TENTS OR CANOPIES, IN GENERAL
    • E04H1/00Buildings or groups of buildings for dwelling or office purposes; General layout, e.g. modular co-ordination or staggered storeys
    • E04H1/06Office buildings; Banks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Architecture (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Civil Engineering (AREA)
  • Structural Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Facsimiles In General (AREA)

Abstract

서식 발생을 위한 컴퓨터로 구현되는 방법은, 하드카피 서식의 이미지를 캡처링하는 단계, 그 이미지 내의 서식 필드 및 서식 필드 각각에 연관된 텍스트 문자를 식별하기 위하여 이미지를 자동으로 처리하는 단계를 포함한다. 필드 내에 정보를 입력하기 위한 각각의 기입 영역을 정의하는 서식 필드의 기하 좌표가 결정된다. 서식 필드 명칭을 식별하기 위하여 광학 문자 인식(OCR)이 텍스트 문자에 적용된다. 서식 필드 명칭과 대응하는 데이터 객체의 객체 명칭 간에 연관관계가 결정된다. 서식 필드의 기입 영역의 기하 좌표는 서식 정의를 발생시키기 위하여 서식 필드에 대응하는 데이터 객체의 객체 명칭과 결합된다.

Description

하드카피 서식으로부터 서식 정의의 자동 발생{AUTOMATED GENERATION OF FORM DEFINITIONS FROM HARD-COPY FORMS}
본 발명은 일반적으로 서식 처리 시스템에 관한 것으로, 더 자세하게는 서식 정의의 자동 발생을 위한 방법 및 시스템에 관한 것이다.
많은 조직 및 기업들은 그들의 비지니스 프로세스의 일부로서 서식들을 사용한다. 서식을 자동으로 처리하기 위한 다양한 방법 및 시스템들이 종래 기술에 알려져 있다. 예를 들어, 미국 특허 제5,228,100호에는, 서식 디스플레이로의 입력 데이터를 수용하기 위한 시스템이 기술되어 있다. 이 시스템은 스캐너를 이용하여 서식 문서의 이미지를 스캐닝하고, 서식 이미지를 생성한다. 프로세서는 서식 이미지 내의 문자 및 선 패턴을 인식하고, 문서의 물리적 구조 데이터 및 논리적 구조 데이터를 생성한다. 프로세서는 논리적 구조 데이터에 기초하여, 서식 디스플레이에 데이터를 입력하기 위한 프로그램을 생성한다. 시스템은 물리적 구조 데이터에 의해 정의된 서식 디스플레이를 나타내기 위한 스크린, 데이터 입력 장치, 및 데이터가 기입되어 있는 서식 디스플레이에 기초하여 인쇄 문서를 생성하기 위한 프린터를 포함한다.
따라서, 본 발명의 일 양태에 따른, 서식 발생을 위한 컴퓨터로 구현 가능한 방법이 제공된다. 이 방법은, 이미지 내의 서식 필드 및 서식 필드 각각에 연관된 텍스트 문자를 식별하기 위해 하드카피 서식의 캡처링된 이미지를 자동으로 처리하는 단계를 포함한다. 필드 내에 정보를 입력하기 위한 각각의 기입 영역(filling area)을 정의하는 서식 필드의 기하 좌표가 결정된다. 서식 필드 명칭들을 식별하기 위해 광학 문자 인식(OCR, optical character recognition)이 텍스트 문자에 적용된다. 서식 필드 명칭과 대응하는 데이터 객체의 객체 명칭 간의 연관관계(association)가 결정된다. 서식 정의를 발생시키기 위하여 서식 필드의 기입 영역의 기하 좌표는 서식 필드에 대응하는 데이터 객체의 객체 명칭과 결합된다.
본 발명의 일 실시예에 따라, 이 방법은, 서식 정의에 있는 결정된 연관관계에 응답하여 데이터 저장소로부터 데이터 객체의 값을 자동으로 판독하고, 그 값이 기입되어 있는 서식의 사본을 서식 필드의 기입 영역에 출력하는 단계를 더 포함한다.
본 발명의 다른 실시예에 따라, 서식의 사본을 출력하는 단계는, 그 사본을 인쇄하는 단계, 그 사본을 팩스로 전송하는 단계, 및 그 사본을 전자 메일로 전송하는 단계 중 적어도 하나를 포함한다.
본 발명의 또 다른 실시예에 따라, 데이터 저장소는 기업 자원 계획(ERP, enterprise resource planning) 시스템의 데이터베이스를 포함한다.
본 발명의 일 실시예에 따라, 하드카피 서식이 제1 ERP 시스템에 의해 생성되고, 서식 정의는 제1 ERP 시스템을 대신하는 제2 ERP 시스템의 일부이다.
본 발명의 또 다른 실시예에 따라, 이미지를 자동으로 처리하는 단계는 하드카피 서식의 레이아웃 관련 특징(feature)을 추출하고, 그 특징을 서식 정의에 포함시키는 단계를 포함한다.
본 발명의 이러한 실시예에 따라, 레이아웃 관련 특징은, 로고, 타이틀, 프레임, 코너, 음영 패턴 및 선 중 적어도 하나를 포함한다.
본 발명의 일 실시예에 따라, 기입 영역은 텍스트 기입 영역과 체크 박스 중 적어도 하나를 포함한다.
본 발명의 또 다른 실시예에 따라, 연관관계를 결정하는 단계는 서식 필드 명칭을 데이터 객체의 객체 명칭과 자동으로 매칭시키는 단계를 포함한다.
본 발명의 제2 양태에 따라, 서식 발생 시스템이 제공된다. 이 시스템은, 이미지 내의 서식 필드 및 서식 필드 각각에 연관된 텍스트 문자들을 식별하기 위해 하드카피 서식으로부터 캡처링된 이미지를 자동으로 처리하고, 서식 필드에 정보를 입력하기 위한 각각의 기입 영역을 정의하는 서식 필드의 기하 좌표를 결정하며, 서식 필드 명칭을 식별하기 위하여 텍스트 문자들에 광학 문자 인식(OCR)을 적용하고, 서식 필드 명칭과 대응하는 데이터 객체의 객체 명칭 간의 연관관계를 결정하며, 서식 정의를 발생시키기 위하여 서식 필드의 기입 영역의 기하 좌표를 서식 필드에 대응하는 데이터 객체의 객체 명칭과 결합하도록 구성된 프로세서를 포함한다. 서식 발생 시스템은 또한, 하드카피 서식의 이미지를 캡처하도록 구성된 이미지 캡처 장치를 포함할 수 있다.
본 발명의 제3 양태에 따라, 서식 발생을 위한 컴퓨터 소프트웨어 제품이 제공된다. 이 제품은, 프로그램 명령어들이 저장되어 있는 컴퓨터 판독 가능한 매체를 포함하는데, 이 명령어들은, 컴퓨터에 의해 판독될 때 컴퓨터로 하여금, 하드카피 서식의 캡쳐링된 이미지를 수용하고, 이미지 내의 서식 필드 및 서식 필드 각각에 연관된 텍스트 문자들을 식별하기 위하여 이미지를 자동으로 처리하며, 서식 필드 내에 정보를 입력하기 위한 각각의 기입 영역을 정의하는 서식 필드의 기하 좌표를 결정하고, 서식 필드 명칭을 식별하기 위하여 텍스트 문자에 광학 문자 인식(OCR)을 적용하며, 서식 필드 명칭과 대응하는 데이터 객체의 객체 명칭 간의 연관관계를 결정하고, 서식 정의를 발생시키기 위하여 서식 필드의 기입 영역의 기하 좌표와 서식 필드에 대응하는 데이터 객체의 객체 명칭을 결합하게 한다.
본 발명은, 도면과 함께 취해진 본 발명의 실시예들의 후속하는 상세한 설명을 통해 완전히 이해될 것이다.
도 1은 본 발명의 일 실시예에 따른 서식 처리 시스템을 개략적으로 도시한 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 하드카피 서식으로부터의 서식 정의의 발생을 위한 방법을 개략적으로 도시한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 기입되어 있는 서식(filled-in form)을 인쇄하기 위한 방법을 개략적으로 도시한 순서도이다.
도 4a는 본 발명의 일 실시예에 따른 하드카피 서식의 발췌부(excerpt)를 도시한 도면이다.
도 4b는 본 발명의 일 실시예에 따른 인쇄된 기입되어 있는 서식의 발췌부를 도시한 도면이다.
도 5a는 본 발명의 일 실시예에 따른 하드카피 서식의 다른 발췌부를 도시한 도면이다.
도 5b는 본 발명의 일 실시예에 따른 인쇄된 기입되어 있는 서식의 또 다른 발췌부를 도시한 도면이다.
본 발명의 실시예들은 기존의 하드카피 서식에 기초하는 서식 정의의 자동 발생을 위한 방법 및 시스템을 제공한다. 이러한 방법 및 시스템은, 예컨대 어떤 조직이 한 기업 자원 계획(ERP)을 다른 기업 자원 계획(ERP)으로 변경할 때 사용될 수 있거나, 또는 아래에 더 상세히 기술되는 다른 데이터 처리 애플리케이션에서 사용될 수 있다.
ERP 시스템을 변경할 때, 조직에 의해 사용되던 서식은 새로운 ERP 시스템에서 정의될 필요가 있다. 때때로 그래픽 편집기의 도움을 받는, 서식의 콘텐츠 및 레이아웃의 수동 정의는, 특히 그 조직이 많은 수의 복잡한 서식을 쓰는 경우, 통상적으로 지루하고, 시간 소모적이며, 오류나기 쉬운 처리이다. 따라서, 사람의 관여를 최소화하고 정의 시간을 감소시키기 위하여 서식 정의 프로세스를 자동화하는 것이 바람직하다.
대부분의 경우, 이전의 ERP 시스템의 하드카피 서식이 이용 가능하다. 본 발명의 실시예들은 새로운 ERP 시스템에서도 사용될 수 있는 등가의 서식을 정의하기 위하여 이용 가능한 하드카피 서식을 이용한다.
몇몇 실시예들에서, 컴퓨터 판독 가능한 이미지를 생성하기 위해 기존의 하드카피 서식이 우선 스캐닝된다. 서식 발생기는 이미지의 레이아웃을 분석하고 서식 필드를 식별한다. 각각의 서식 필드에 대해, 통상적으로 광학 문자 인식(OCR) 프로세스를 이용하여 필드 명칭이 추출된다. 또한, 필드의 기입 영역, 즉 정보가 입력될 비어있는 영역의 기하 좌표가 식별된다. 몇몇 실시예들에서, 로고, 프레임, 및 다른 객체들과 같은 서식의 레이아웃 관련 특징들 또한 이미지로부터 추출된다.
그 다음, 서식 발생기는 식별된 서식 필드를 ERP 데이터베이스의 필드와 같은 적당한 데이터 객체와 연결한다. 예를 들어, 서식 발생기는 이미지로부터 추출된 서식 필드 명칭에 매칭하는, 데이터베이스 내의 객체 명칭을 찾으려고 시도할 수 있다. 부가적으로 또는 대안으로서, 사용자는 서식 필드와 데이터 객체 간의 연관을 수동으로 수행할 수 있다. 사용자는 자동 연관의 결과들을 검증할 수 있거나, 및/또는 서식 발생기가 매칭하는 객체 명칭을 위치시키는데 실패한 경우 연관을 수동으로 수행할 것을 요구받을 수 있다.
서식 발생기는 각각의 서식 필드와 대응하는 데이터 객체 간에 발견되는 연관관계 뿐만 아니라, 식별된 서식 필드 명칭 및 기입 영역 위치를 포함하는 서식 정의를 생성한다. 서식 정의는 또한, 서식의 레이아웃 관련 특징을 포함할 수 있다. ERP 시스템은 서식 정의에 따라, 데이터베이스의 적당한 데이터 필드로부터 데이터를 검색함으로써 서식에 기입하고, 이어서 이를 인쇄할 수 있다.
도 1은 본 발명의 일 실시예에 따른 서식 처리 시스템(20)을 개략적으로 도 시한 블럭도이다. 이 시스템(20)은, 특히 정보를 처리하고, 기입되어 있는 서식, 즉 정보가 기입되어 있는 서식을 인쇄하는 기업 자원 계획(ERP) 시스템(24)을 포함한다. ERP 시스템(24)에 의해 인쇄된 서식은, 송장, 영수증, 주문서, 견적서, 및 보고서와 같은 임의의 적합한 기입되어 있는 서식을 포함할 수 있다. 후속하는 설명이 한 종류의 서식의 처리를 언급하지만, 시스템(20)은 통상적으로 복수의 서식 종류를 지원한다.
서식에 기입될 수 있는 정보는, ERP 데이터베이스(28)와 같은 데이터 저장소에 저장된다. 기입되고 인쇄될 각각의 서식은, 예컨대 데이터베이스(28) 내에 복수의 데이터 객체들을 보유하는 레코드(record), 또는 상이한 레코드에 보유된 데이터 객체의 조합에 대응할 수 있다. 데이터 객체는 서식의 상이한 필드에 나타날 정보를 포함한다. 데이터베이스(28) 내의 각각의 데이터 객체는, 추가적으로 간단한 텍스트 설명 및/또는 데이터 필드를 설명하는 하나 이상의 키워드를 포함할 수 있는 객체 명칭을 갖는다.
ERP 시스템은 서식 정의 또는 템플릿에 따라 서식을 생성하고 인쇄한다. 몇몇 실시예들에서, 서식 정의는 서식의 물리적 레이아웃 및 그 서식의 콘텐츠 모두를 지정한다. 서식 정의는 상이한 서식 필드들을 지정한다. 정의는 통상적으로, 서식 상의 필드 타이틀 및 기입 영역의 위치 좌표 및/또는 그 필드 타이틀 및 콘텐츠를 인쇄하는데 이용될 폰트와 같은 각각의 서식 필드의 레이아웃 관련 특성들을 지정한다. 정의는 또한, 로고 및 서식 식별자와 같은 전체 서식의 특성들뿐만 아니라 프레임, 코너, 음영 패턴 및 선과 같은 필드에 관련된 그래픽 객체들을 지정할 수 있다. 특히, 서식 정의는 서식 필드에 기입될 정보를 보유하는 ERP 데이터베이스(28)의 각각의 데이터 객체에 서식 필드들을 연결하는 연관 또는 링크들을 지정한다.
따라서, 기입되어 있는 서식을 인쇄하기 위하여, ERP 시스템(24)은 서식 정의 내의 연관관계에 의해 지정된 바와 같이, 데이터베이스(28) 내의 적당한 데이터 객체들에 질의함으로써 기입될 정보를 검색한다. ERP 시스템은 서식 정의에 정의된 레이아웃에 따라 기입되어 있는 서식을 구성하고, 특히 서식 필드의 적당한 기입 영역 내에 그 검색된 데이터베이스 정보를 삽입한다.
시스템은 프린터와 같은 출력 장치(32)를 이용하여 기입되어 있는 서식(36)을 인쇄한다. 대안으로서, 시스템은 이미지 파일로서 기입되어 있는 서식을 생성할 수 있고, 그 기입되어 있는 서식을 e-mail을 이용하여 그 서식의 목적지에 전송할 수 있다. 추가 대안으로서, 출력 장치(32)는 팩스를 포함할 수 있다.
서식 정의는 기존의 하드카피 서식(40)으로부터 유도된다. 서식(40)은 캡처 장치(44)에 의해, 서식 이미지로서 언급되는, 컴퓨터 판독 가능한 이미지로 변환된다. 캡처 장치(44)는 스캐너, 팩스, 또는 하드카피 서식을 컴퓨터 판독 가능한 이미지로 변환하는데 적합한 임의의 다른 장치를 포함할 수 있다.
서식 이미지는 서식 발생기(48)에 의해 처리된다. 서식 정의를 생성하기 위하여, 서식 발생기는 서식 이미지를 처리하고 데이터베이스(28)와 상호작용하며, 어쩌면 사용자 워크스테이션(56)을 통해 사용자(52)와 상호작용한다. 서식 정의를 이용하여 기입되어 있는 서식을 인쇄하는 ERP 시스템(24)에 서식 정의가 제공된다.
통상적으로, 서식 발생기(48)는 본 명세서에 기술된 기능들을 수행하기 위해 소프트웨어로 프로그래밍된 범용 컴퓨터를 포함한다. 소프트웨어는 네트워크를 통해 전자 서식으로 컴퓨터에 다운로드될 수 있거나, 또는 예컨대 대안으로서, CD-ROM과 같은 유형의 매체 상의 컴퓨터에 공급될 수 있다. 몇몇 실시예들에서, 서식 발생기는 ERP 시스템(24)과 동일한 컴퓨팅 플랫폼을 공유하는 소프트웨어 프로세스로서 구현된다. 대안으로서, 서식 발생기(48) 및 ERP 시스템(24)은 별도의 컴퓨팅 플랫폼을 사용할 수도 있다.
도 2는 본 발명의 일 실시예에 따른 서식 정의의 자동화 발생을 위한 방법을 개략적으로 도시한 순서도이다. 이 방법은, 캡처 장치(44)가 하드카피 서식(40)을 컴퓨터 판독 가능한 서식 이미지로 변환하는, 캡처링 단계(60)에서 시작한다.
서식 발생기(48)는 레이아웃 분석 단계(62)에서, 서식 이미지의 레이아웃을 분석한다. 서식 발생기는 로고, 타이틀, 프레임, 코너, 및 선과 같은 서식의 상이한 레이아웃 관련 특징들을 추출한다. 또한, 서식 발생기는 이미지 내의 텍스트 영역, 즉 텍스트 문자들을 포함하는 영역을 식별하고, 광학 문자 인식(OCR)을 이용하여 텍스트를 디코딩한다(비록 후속하는 설명이 기입되지 않은 서식으로서 하드카피 서식(40)을 언급하지만, 본 명세서에 기술되는 방법 및 시스템은 또한 하드카피 기입되어 있는 서식에도 적용될 수 있다. 예를 들어, OCR 소프트웨어는 서식 필드 명칭과 기입되어 있는 콘텐츠를 구분하도록 구성될 수 있다).
서식 발생기(48)는 필드 정의 단계(64)에서, 상이한 서식 필드들을 식별하고 서식 정의에 그 상이한 서식 필드들의 특성들을 정의하기 위하여 서식 이미지로부 터 추출된 정보를 이용한다. 특히, 서식 발생기는 서식 필드 명칭, 및 각각의 식별된 서식 필드의 기입 영역의 좌표를 식별한다. 예컨대, 기입 영역은 텍스트 정보 및 체크 박스를 입력하기 위한 빈 영역을 포함할 수 있다.
서식 발생기는 연관 단계(66)에서, 각각의 서식 필드를 데이터베이스(28) 내의 개개의 데이터 객체에 연관시킨다. 몇몇 실시예들에서, 서식 발생기는 상기 단계(62)에서 OCR을 이용하여 추출되었던 서식 필드 명칭을 이용한다. 통상적으로, 객체 명칭은, 그들이 유사한 엔티티를 기술하기 때문에, 서식 필드 명칭과 다소 유사하다. 따라서, 서식 발생기는 서식 필드들의 명칭을 매칭시킴으로써 서식 필드를 데이터 객체에 연관시킬 수 있다. 상술한 바와 같이, 객체 명칭은 성공적인 매칭의 가능성을 향상시킬 수 있는 추가의 텍스트 또는 키워드를 포함할 수 있다.
대안으로서, 사용자(52)는 워크스테이션(56)을 이용하여, 서식 필드를 데이터 객체와 수동으로 연관시킬 수 있다. 부가적으로 또는 대안으로서, 사용자는 서식 발생기에 의해 결정된 자동화된 연관의 결과를 검증할 수 있다. 주목할 것은, 심지어 사용자가 수동 연관을 수행할 때에도, 완전 수동 서식 정의 프로세스에 관하여 서식 정의 시간은 상당히 감소된다는 것이다.
서식 발생기(48)는 정의 출력 단계(68)에서 서식 정의를 생성한다. 서식 정의는 각각의 서식 필드의 정의를 포함한다. 특히, 서식 정의는 서식 필드와, 데이터베이스(28) 내의 데이터 객체 간의 연관관계를 포함한다. 서식 발생기는 ERP 시스템(24)에 서식 정의를 제공한다.
도 3은 본 발명의 일 실시예에 따른, 기입되어 있는 서식(36)을 인쇄하기 위 한 방법을 개략적으로 도시한 순서도이다. 이 방법은, ERP 시스템(24)이 서식 정의에 지정된 연관관계에 따라 적당한 데이터 객체를 검색하는 데이터 질의 단계(80)에서 시작한다.
ERP 시스템은 서식 구성 단계(82)에서, 검색된 정보를 이용하여 기입되어 있는 서식을 구성한다. ERP 시스템은 서식 정의에 지정되어 있는 레이아웃 관련 필드 특성들에 따라 서식을 레이아웃 한다. 시스템은 적당한 데이터 객체로부터 검색된 정보를 각각의 서식 필드의 기입 영역에 입력한다. 그 다음, ERP 시스템은 출력 단계(84)에서, 출력 장치(32)를 이용하여 기입되어 있는 서식을 인쇄한다.
도 4a는 본 발명의 일 실시예에 따른 하드카피 서식의 발췌부(88)를 도시한 도면이다. 이 예에서, 발췌부는 건강 보험 청구 서식의 일부이다. 발췌부는 환자의 거리의 번지 및 집의 호수, 도시, 주, 우편번호, 및 전화 번호를 입력하기 위한 5개의 서식 필드를 포함한다.
발췌부(88)를 분석할 때, 서식 발생기(48)는 그 5개의 필드를 식별한다. 각각의 필드에서, 서식 발생기는 서식 필드 명칭을 포함하는 텍스트 영역(92) 및 기입 영역(96)을 식별한다. 서식 발생기는 OCR을 이용하여 텍스트 영역(92)에 있는 텍스트를 추출하고, 기입 영역(96)의 좌표를 결정한다. 서식 발생기는 아래의 서식 필드 명칭 및 좌표를 생성한다.
서식 필드 명칭 기입 영역 좌표
환자_주소_거리번지 87, 429, 615, 465
환자_주소_도시 87, 516, 544, 548
환자_주소_주 555, 516, 615, 548
환자_주소_우편번호 87, 516, 320, 612
환자_주소_전화번호 331, 516, 615, 612
이 예에서, ERP 데이터베이스 내의 특정 환자의 레코드는 아래의 데이터 객체 및 객체 명칭을 포함한다.
ID 거리번지 도시 우편번호 전화번호
29875 메인가 123번지 뉴욕 NY 67676 (212)555-1234
주목할 것은, 서식 필드 명칭과 객체 명칭은 동일하지 않다는 것이다. 그럼에도 불구하고, 양쪽 명칭에 열 "거리 번지"가 등장하기 때문에, 서식 발생기는 "환자_주소_거리 번지" 서식 필드 명칭을 "거리 번지" 객체 명칭과 연관시킬 수 있다. 유사한 연관관계가 다른 필드에 대해서도 결정될 수 있다.
도 4b는 본 발명의 일 실시예에 따른 인쇄된 기입되어 있는 서식의 발췌부(100)를 도시한 도면이다. 기입되어 있는 서식은 상술한 방법을 이용하여 도 4a의 하드카피 서식에 기초하여 생성된다. 발췌부(100)를 생성하기 위해, ERP 시스템(24)은 데이터베이스(28)로부터 원하는 환자 레코드를 검색하고, 서식 정의에 따라 서식을 레이아웃 한다. 특히, 시스템은 지정된 연관관계에 따라 그 레코드의 데이터 아이템들을 적당한 기입 영역들에 삽입한다.
도 5a는 본 발명의 일 실시예에 따른 하드카피 서식의 발췌부(104)를 도시한 도면이다. 환자 개인의 상태를 입력하기 위한 필드에 관한 이 예에서, 서식 발생기에 의해 하나의 서식 필드는 텍스트 영역(108) 및 기입 영역(112)을 갖는 6개의 하위 필드로서 간주된다. 이 경우의 기입 영역은 체크 박스를 포함한다. 서식 이미지의 분석 후, 서식 발생기(48)는 아래의 서식 필드 명칭 및 좌표를 식별한다.
서식 필드 명칭 기입 영역 좌표
환자_상태_미혼 200, 100, 220, 120
환자_상태_기혼 250, 100, 270, 120
환자_상태_기타 300, 100, 320, 120
환자_상태_재직중 200, 170, 220, 190
환자_상태_풀_타임_학생 250, 170, 270, 190
환자_상태_파트_타임_학생 300, 170, 320, 190
도 5b에는 본 발명의 일 실시예에 따라 상기 도 5a의 하드카피 서식에 기초한 인쇄된 기입되어 있는 서식의 발췌부(112)를 도시한 도면이다. 발췌부(112)에서, 데이터베이스(28)로부터 검색된 정보에 기초하여, ERP 시스템(24)에 의해 적당한 체크 박스들이 체크된다.
본 명세서에서 기술된 실시예들이 주로 서식 처리 애플리케이션을 다루지만, 본 발명의 원리는 또한, 손실되거나 또는 손상된 서식 정의를 복구하는 애플리케이션 또는 서식을 새로운 레이아웃으로 커스터마이즈 하거나 또는 재정의하는 애플리케이션과 같은 애플리케이션을 위해서도 사용될 수 있다. 본 명세서에 기술된 방법 및 시스템은 또한 새로운 서식을 설계 및/또는 수정하는데 사용될 수 있다. 예를 들어, 페이퍼 서식은 스캐닝되고 정보가 기입될 수 있는데, 이 정보는 기존의 사용자 프로필로부터 자동으로 추출된다.
따라서, 상술한 실시예들은 예로서 인용된 것이며, 본 발명은 위에서 특별히 도시되거나 기술된 것으로 한정되는 것은 아니라는 것을 이해해야 한다. 오히려, 본 발명의 범위는 종래 기술에 개시되지는 않았지만 상술한 상세한 설명에 관하여 당업자들이 행할 수 있는, 상술한 다양한 특징들의 변경 및 수정뿐만 아니라, 상술한 다양한 특징들의 조합과 부조합 모두를 포함한다.

Claims (10)

  1. 서식 발생을 위한 컴퓨터로 구현되는 방법에 있어서,
    이미지 내의 서식 필드들 및 상기 서식 필드 각각에 연관된 텍스트 문자들을 식별하기 위하여 하드카피 서식의 캡처링된 이미지를 자동으로 처리하는 단계;
    상기 필드들에 정보를 입력하기 위한 각각의 기입 영역(filling area)들을 정의하는 서식 필드들의 기하 좌표들을 결정하는 단계;
    서식 필드 명칭들을 식별하기 위하여 텍스트 문자들에 광학 문자 인식(OCR, optical character recognition)을 적용하는 단계;
    상기 서식 필드 명칭들과 대응하는 데이터 객체들의 객체 명칭들 간의 연관관계(association)를 결정하는 단계;
    서식 정의를 발생시키기 위하여, 서식 필드들의 기입 영역들의 상기 기하 좌표들을 서식 필드들에 대응하는 데이터 객체들의 객체 명칭들과 결합하는 단계; 및
    상기 서식 정의에 있는 상기 결정된 연관관계에 응답하여 데이터 저장소로부터 상기 데이터 객체들의 값들을 자동으로 판독하고, 상기 서식 필드들의 기입 영역들에 상기 값들이 기입되어 있는 서식의 사본을 출력하는 단계
    를 포함하는 서식 발생을 위한 컴퓨터로 구현되는 방법.
  2. 제1항에 있어서, 상기 데이터 저장소는 기업 자원 계획(ERP, enterprise resource planning) 시스템의 데이터베이스를 포함하는 것인, 서식 발생을 위한 컴 퓨터로 구현되는 방법.
  3. 제1항에 있어서, 상기 하드카피 서식은 제1 ERP 시스템에 의해 생성되고, 상기 서식 정의는 상기 제1 ERP 시스템을 대체하는 제2 ERP 시스템의 일부인 것인, 서식 발생을 위한 컴퓨터로 구현되는 방법.
  4. 제1항에 있어서, 상기 이미지를 자동으로 처리하는 단계는, 상기 하드카피 서식의 레이아웃 관련 특징(feature)을 추출하고, 그 특징을 상기 서식 정의에 포함시키는 단계를 포함하는 것인, 서식 발생을 위한 컴퓨터로 구현되는 방법.
  5. 제4항에 있어서, 상기 레이아웃 관련 특징은, 로고, 타이틀, 프레임, 코너, 음영 패턴, 및 선 중 적어도 하나를 포함하는 것인, 서식 발생을 위한 컴퓨터로 구현되는 방법.
  6. 제1항에 있어서, 상기 기입 영역은 텍스트 기입 영역과 체크 박스 중 적어도 하나를 포함하는 것인, 서식 발생을 위한 컴퓨터로 구현되는 방법.
  7. 제1항에 있어서, 상기 연관관계를 결정하는 단계는, 상기 서식 필드 명칭들과 상기 데이터 객체들의 객체 명칭들을 자동으로 매칭시키는 단계를 포함하는 것인, 서식 발생을 위한 컴퓨터로 구현되는 방법.
  8. 서식 발생 시스템에 있어서,
    이미지 내의 서식 필드들 및 상기 서식 필드 각각에 연관된 텍스트 문자들을 식별하기 위하여 하드카피 서식의 캡처링된 이미지를 자동으로 처리하고, 상기 서식 필드들에 정보를 입력하기 위한 각각의 기입 영역들을 정의하는 서식 필드들의 기하 좌표들을 결정하며, 서식 필드 명칭들을 식별하기 위하여 텍스트 문자들에 광학 문자 인식(OCR)을 적용하고, 상기 서식 필드 명칭들과 대응하는 데이터 객체들의 객체 명칭들 간의 연관관계를 결정하며, 서식 정의를 발생시키기 위하여 서식 필드들의 기입 영역들의 상기 기하 좌표들을 서식 필드들에 대응하는 데이터 객체들의 객체 명칭들과 결합하고, 상기 서식 정의에 있는 상기 결정된 연관관계에 응답하여 데이터 저장소로부터 상기 데이터 객체들의 값들을 자동으로 판독하도록 구성된 프로세서, 및 상기 서식 필드들의 기입 영역들에 상기 값들이 기입되어 있는 서식의 사본을 출력하도록 구성된 출력 장치를 포함하는 서식 발생 시스템.
  9. 제8항에 있어서, 상기 데이터 저장소는 기업 자원 계획(ERP) 시스템의 데이터베이스를 포함하는 것인, 서식 발생 시스템.
  10. 컴퓨터 판독 가능한 매체를 포함하는, 서식 발생을 위한 컴퓨터 소프트웨어 제품으로서, 상기 컴퓨터 판독 가능한 매체에는, 컴퓨터에 의해 실행될 때 컴퓨터로 하여금 제1항 내지 제7항 중 임의의 어느 한 항의 단계들을 수행하게 하는 프로 그램 명령어들이 저장되어 있는 것인, 컴퓨터 소프트웨어 제품.
KR1020097009355A 2006-11-16 2007-11-07 하드카피 서식으로부터 서식 정의의 자동 발생 KR20090079226A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0622863.9A GB0622863D0 (en) 2006-11-16 2006-11-16 Automated generation of form definitions from hard-copy forms
GB0622863.9 2006-11-16

Publications (1)

Publication Number Publication Date
KR20090079226A true KR20090079226A (ko) 2009-07-21

Family

ID=37605400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097009355A KR20090079226A (ko) 2006-11-16 2007-11-07 하드카피 서식으로부터 서식 정의의 자동 발생

Country Status (7)

Country Link
US (1) US8520889B2 (ko)
EP (1) EP2092463A1 (ko)
JP (1) JP5623079B2 (ko)
KR (1) KR20090079226A (ko)
CN (1) CN101523413A (ko)
GB (1) GB0622863D0 (ko)
WO (1) WO2008058871A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101959831B1 (ko) * 2017-09-26 2019-03-19 아주대학교산학협력단 이미지 인식 처리 장치 및 방법

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9740692B2 (en) 2006-08-01 2017-08-22 Abbyy Development Llc Creating flexible structure descriptions of documents with repetitive non-regular structures
JP5115089B2 (ja) * 2007-08-10 2013-01-09 富士通株式会社 キーワード抽出方法
JP5402099B2 (ja) * 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
CN101661512B (zh) * 2009-09-25 2012-01-11 万斌 一种识别传统表单信息并创建对应Web表单的系统及方法
JP2012009000A (ja) * 2010-05-24 2012-01-12 Pfu Ltd 帳票処理システム、ocr装置、ocr処理プログラム、帳票作成装置、帳票作成プログラム、および帳票処理方法
JP2012009005A (ja) * 2010-05-24 2012-01-12 Pfu Ltd 帳票処理システム、ocr装置、ocr処理プログラム、帳票作成装置、帳票作成プログラム、および帳票処理方法
US8977971B2 (en) * 2010-12-24 2015-03-10 General Electric Company Metadata generation systems and methods
CN102654874A (zh) * 2011-03-02 2012-09-05 顾菊林 单据数据管理方法及系统
JP2012194879A (ja) * 2011-03-17 2012-10-11 Pfu Ltd 情報処理装置、情報処理方法及びプログラム
US8724931B2 (en) 2011-05-27 2014-05-13 Ebay Inc. Automated user information provision using images
US8386535B2 (en) * 2011-07-29 2013-02-26 Ricoh Company, Ltd. Form processing cloud service with template repository
CN102915230B (zh) * 2011-08-02 2016-04-27 联想(北京)有限公司 一种用户界面生成方法、装置及电子设备
US9129276B1 (en) * 2011-11-02 2015-09-08 Intuit Inc. Inventory management
US9111140B2 (en) * 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US10346444B1 (en) * 2012-01-12 2019-07-09 OpsDog, Inc. Management of standardized organizational data
US10114800B1 (en) * 2013-12-05 2018-10-30 Intuit Inc. Layout reconstruction using spatial and grammatical constraints
CN105404636B (zh) * 2014-11-18 2017-09-29 国网山东省电力公司 基于sap系统的纸质单据电子化平台实现方法及系统
US20160253305A1 (en) * 2015-02-27 2016-09-01 Calvin Wiese Filling Forms with a Smartphone
US20170011483A1 (en) * 2015-07-09 2017-01-12 ClearNDA, LLC System and method for electronic signature creation and application
US9935941B2 (en) 2015-09-16 2018-04-03 International Business Machines Corporation Mobile based multi-channel citizen account origination in digital economy
CN105631103B (zh) * 2015-12-24 2018-12-21 北京汽车研究总院有限公司 一种多体模型表单化管控的方法及系统
TWI680411B (zh) * 2016-01-07 2019-12-21 葉振忠 電子表單建立系統及方法
CN107330796B (zh) * 2016-04-29 2021-01-29 泰康保险集团股份有限公司 组件化生成表单的数据处理方法及系统
CN107145312A (zh) * 2017-04-27 2017-09-08 广州慧扬健康科技有限公司 基于电子病历表单设计器的半自动化打印模版设计器
US10268883B2 (en) * 2017-08-10 2019-04-23 Adobe Inc. Form structure extraction network
TWI682327B (zh) * 2018-01-02 2020-01-11 虹光精密工業股份有限公司 影像整合列印系統以及影像整合列印方法
US10915701B2 (en) * 2018-03-19 2021-02-09 Adobe Inc. Caption association techniques
US11416674B2 (en) 2018-07-20 2022-08-16 Ricoh Company, Ltd. Information processing apparatus, method of processing information and storage medium
CN109284712B (zh) * 2018-09-20 2021-04-27 浙江口碑网络技术有限公司 商品信息的配置方法及装置
CN110032920A (zh) * 2018-11-27 2019-07-19 阿里巴巴集团控股有限公司 文字识别匹配方法、设备和装置
CN109710907A (zh) * 2018-12-20 2019-05-03 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
CN109871521A (zh) * 2019-01-08 2019-06-11 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
US11003862B2 (en) 2019-03-20 2021-05-11 Adobe Inc. Classifying structural features of a digital document by feature type using machine learning
JP7439435B2 (ja) * 2019-09-30 2024-02-28 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11087079B1 (en) 2020-02-03 2021-08-10 ZenPayroll, Inc. Collision avoidance for document field placement
JP7468004B2 (ja) * 2020-03-11 2024-04-16 富士フイルムビジネスイノベーション株式会社 帳票処理装置及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3172006D1 (en) 1980-05-22 1985-10-03 Masayuki Ishikawa Novel quinazoline-dione compounds, process for production thereof and pharmaceutical use thereof
KR930009639B1 (ko) * 1989-07-09 1993-10-08 가부시끼가이샤 히다찌세이사꾸쇼 화상데이타를 이용하는 문서데이타 처리방법 및 장치
IT1235545B (it) 1989-07-10 1992-09-09 Ausimont Srl Fluoroelastomeri dotati di migliore processabilita' e procedimento di preparazione
US5258855A (en) * 1991-03-20 1993-11-02 System X, L. P. Information processing methodology
JPH05216932A (ja) 1992-02-03 1993-08-27 Hitachi Ltd 情報管理システム
US5619708A (en) 1994-10-25 1997-04-08 Korteam International, Inc. System and method for generating database input forms
SE511242C2 (sv) 1997-04-01 1999-08-30 Readsoft Ab Förfarande och anordning för automatisk datafångst hos formulär
JP2000003403A (ja) * 1998-06-16 2000-01-07 Hitachi Ltd 帳票入力支援方法
JP2000172770A (ja) * 1998-12-07 2000-06-23 Hitachi Ltd システム間連携装置および方法
JP2000251012A (ja) 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2000268106A (ja) * 1999-03-15 2000-09-29 Casio Comput Co Ltd 帳票処理装置およびそのプログラム記録媒体
US6640009B2 (en) * 2001-02-06 2003-10-28 International Business Machines Corporation Identification, separation and compression of multiple forms with mutants
EP1361524A1 (en) 2002-05-07 2003-11-12 Publigroupe SA Method and system for processing classified advertisements
JP2004139484A (ja) * 2002-10-21 2004-05-13 Hitachi Ltd 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JP2004145736A (ja) * 2002-10-25 2004-05-20 Canon Software Inc 文字認識装置および文字認識データ出力方法およびプログラムおよび記録媒体
US20050210048A1 (en) 2004-03-18 2005-09-22 Zenodata Corporation Automated posting systems and methods
US20050288808A1 (en) * 2004-06-14 2005-12-29 Lopez George A Computer system for efficient design and manufacture of multiple-component devices

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101959831B1 (ko) * 2017-09-26 2019-03-19 아주대학교산학협력단 이미지 인식 처리 장치 및 방법

Also Published As

Publication number Publication date
US20100128922A1 (en) 2010-05-27
JP5623079B2 (ja) 2014-11-12
CN101523413A (zh) 2009-09-02
EP2092463A1 (en) 2009-08-26
GB0622863D0 (en) 2006-12-27
JP2010510563A (ja) 2010-04-02
WO2008058871A1 (en) 2008-05-22
US8520889B2 (en) 2013-08-27

Similar Documents

Publication Publication Date Title
KR20090079226A (ko) 하드카피 서식으로부터 서식 정의의 자동 발생
US11868717B2 (en) Multi-page document recognition in document capture
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
US8233714B2 (en) Method and system for creating flexible structure descriptions
WO2020218512A1 (ja) 学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラム
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US7840092B2 (en) Medium processing method, copying apparatus, and data filing apparatus
US20050289182A1 (en) Document management system with enhanced intelligent document recognition capabilities
US20080235263A1 (en) Automating Creation of Digital Test Materials
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
CN102331914A (zh) 表单处理系统、ocr装置、表单制作装置及其处理方法
US20070146793A1 (en) Method of using printed forms to transmit the information necessary to create electronic forms
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN111860450A (zh) 票证识别装置以及票证信息管理系统
US20110170144A1 (en) Document processing
JP6190549B1 (ja) 文書処理システム
JP5445740B2 (ja) 画像処理装置、画像処理システムおよび処理プログラム
JPH0384681A (ja) 名刺情報の入力処理方法
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
JP2002055985A (ja) 文書属性識別装置及び方法
US20240005689A1 (en) Efficient use of training data in data capture for Commercial Documents
WO2004084539A1 (ja) 記入用文書作成装置及び作成方法、記入内容抽出装置及び抽出方法、記入用文書
JP6435636B2 (ja) 情報処理装置及び情報処理プログラム
JP2021005173A (ja) Ocr認識結果確認支援プログラム、ocr認識結果確認支援方法およびocr認識結果確認支援システム
JPH0678119A (ja) 画像ファイリング装置および画像読取処理装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application