KR20190061343A - 문서인식 및 번역검증방법 - Google Patents

문서인식 및 번역검증방법 Download PDF

Info

Publication number
KR20190061343A
KR20190061343A KR1020170159620A KR20170159620A KR20190061343A KR 20190061343 A KR20190061343 A KR 20190061343A KR 1020170159620 A KR1020170159620 A KR 1020170159620A KR 20170159620 A KR20170159620 A KR 20170159620A KR 20190061343 A KR20190061343 A KR 20190061343A
Authority
KR
South Korea
Prior art keywords
document
type
civil
format
translated
Prior art date
Application number
KR1020170159620A
Other languages
English (en)
Inventor
이영우
김영석
김동구
Original Assignee
한국통합민원센터 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국통합민원센터 주식회사 filed Critical 한국통합민원센터 주식회사
Priority to KR1020170159620A priority Critical patent/KR20190061343A/ko
Publication of KR20190061343A publication Critical patent/KR20190061343A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06K9/00442
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • G06F17/248
    • G06F17/289
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • G06K9/344
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 민원서류의 종류를 인식함에 있어서, 양식의 기본 데이터를 파악하고, 각 텍스트의 위치 데이터 값, 제목행 및 내용열을 구분하고, 내용열은 고정형, 주소형, 이름형, 데이터형 및 가변형으로 구분하며, 번역이 필요한 텍스트와 원문을 다시 출력할 부분을 특정하여 XML 파일로 재생성하는 문서인식 및 번역검증방법을 제공한다.

Description

문서인식 및 번역검증방법{METHOD FOR DOCUMENT RECOGNITION AND TRANSLATION VERIFICATION}
본 발명은 문서인식 및 번역검증방법에 관한 것으로, 구체적으로는 발급된 민원서류를 인식하고 번역 및 검증하는 문서인식 및 번역검증방법에 관한 것이다.
종래의 민원서류들은 상당부분이 개인(또는 법인)의 출생, 혼인, 가족, 학력, 재산, 납세, 병역, 범죄, 경력사항 등을 증빙하는 것으로서 이는 해외에서도 제출 대상이 되는 기본적인 서류이다.
최근 세계화로 인하여 해외에서 본인의 증명에 대한 수요가 기하급수적으로 증가함에 따라 국내에서 발급받은 서류를 번역하여 해외에 제출하기 위한 번역 서비스 산업이 발달하고 있다. 즉, 민원서류를 공증을 받아 해외에 제출하기 위해서는 필수적으로 해당국가의 언어나 영어로 번역을 해야 하는 경우가 대부분이다.
현재 민원인들이 해당국가의 관공서로부터 민원서류를 출력받아 번역사를 통해 번역해야 하는 어려운 번거로움이 있고, 또한 번역된 민원서류를 해당 제공처에 직접 제출함으로써 시간과 노력이 많이 소요되는 단점이 있다.
또한 그 서류의 종류도 수천가지 이상이여서 일반 사용자가 이러한 서식을 모두 이해하고 처리하는 점은 매우 어려운 점이 있다.
이를 해결하고자 대한민국 공개특허 제2002-63349호에서는 무선통신단말기에 민원서류의 발급을 위한 개인정보 및 결제정보를 전송받기 위한 입력창이 구비된 웹페이지를 전송하는 단계, 무선통신단말기로부터 입력된 개인정보 및 결제정보가 입력된 상기 웹페이지를 수신받는 입력정보 수신단계, 결제정보에서 지정하는 결제기관에 상기 민원서류의 발급수수료와 서비스대행수수료를 승인받는 단계, 발급기관에 상기 민원서류발급에 따른 발급수수료를 이체시키는 단계, 직접수령, 전자수령, 우편수령을 선택하여 민원서류를 발급, 배송하는 단계를 포함하는 것을 특징으로 한다. 또한 직접수령의 경우 이동통신사로부터 수신받은 이동통신단말기의 위치정보를 이용하여 가장 가까운 관공서를 선택할 수 있도록 하는 민원서류발급대행 서비스방법이 제안되었다. 그러나 상기 방법은 민원서류의 발급에만 국한되고 서류의 인식, 번역, 번역검증에 관한 고려가 없었다.
이러한 번역 등의 행위가 이루어지기 위해서는 서류의 종류나 문자 등을 인식하고 번역 등이 이루어져야 하는데 대한민국 등록특허 제912502호에서는 자동 번역 장치가 제안되었는데 입력되는 원시언어 PDF 파일로부터 이미지 변환을 통해 원시언어 텍스트 및 비텍스트를 추출하며, 추출된 원시언어 텍스트를 텍스트 정보로부터 추출한 원시언어 텍스트를 이용해 교정하며 추출된 원시언어 텍스트 중에서 비텍스트 등에 의해 문맥적으로 분리된 부분을 복원하고, 원시언어 PDF 파일의 문맥적 흐름에 맞도록 추출된 텍스트 및 비텍스트를 재정렬하여 원시언어 XML/HTML 파일을 생성하며 원시언어 XML/HTML 파일의 태그로부터 원시언어 텍스트를 분리한 뒤, 원시언어 PDF 파일에 해당하는 기술 분야에 특화된 번역 지식 및 변환 엔진을 이용하여 목적언어 텍스트를 생성한다. 이렇게 번역된 목적언어 텍스트는 원시언어 텍스트 대신 XML/HTML 파일에 삽입되고, 이에 따라 생성된 목적언어 XML/HTML 파일은 다시 목적언어 PDF 파일로 변환되어 출력되는 기술이 제안되었다. 그러나 상기 제안된 기술에서도 번역의 검증이나 수 천가지의 문서에 대한 판단알고리즘이 개시되어 있지 않다.
또한 주민등록등,초본과 같은 민원서류를 영문으로 발급받을 수 있도록 하는 기술로서 대한민국 등록특허 제439413호가 공개되어 있다. 이에 따르면, 주민등록등,초본 발급 시스템에 있어서, 읍, 면, 동의 국영문 주소가 저장된 주소정보 데이터베이스와, 세대구성사유와 주소연동사유 등의 국영문 행정용어가 저장된 행정정보 데이터베이스와, 역종, 전역사유, 군별, 변과, 계급 등의 국영문 군사용어가 저징된 병역정보 데이터베이스와, 로마자 표기방식의 표음문자가 저장된 영문정보 데이터베이스와, 키입력부를 통해 인가되는 제어명령에 따라 상기 데이터베이스 중 어느 하나의 데이터베이스를 액세스하여 필요한 정보를 로딩하고 이를 모니터에 콤보 박스의 형태로 출력하며 콤보 박스에 리스트 된 항목들 중 특정항목이 선택되면 이를 메모리에 일시 저장한 후, 인쇄명령에 따라 메모리에 저장된 데이터를 프린터로 출력하여 인쇄하는 CPU로 구성된다. 그러나 상기 제안된 기술에서도 기본적인 데이터베이스의 저장된 정보값에 기초해 발급될 뿐 영문 등으로 미리 저장된 정보가 없는 서류종류에 대해서는 방안이 제안되고 있지 못하고 있다.
대한민국 공개특허 제2002-63349호 대한민국 등록특허 제912502호 대한민국 등록특허 제439413호
본 발명은 수 천가지의 다양한 민원서류를 원하는 인식하고 소정의 언어로 번역 및 번역 검증하는 문서인식 및 번역검증방법을 제공함에 목적이 있다.
또한 본 발명은 매우 다양한 민원서류의 종류를 인식하는 새로운 방법을 제공함을 목적으로 한다.
또한 본 발명은 자동번역시스템으로서 오류를 최소화할 수 있는 방법 및 시스템을 제공함을 목적으로 한다.
본 발명은 민원서류의 종류를 인식함에 있어서, 양식의 기본 데이터를 파악하고, 각 텍스트의 위치 데이터 값, 제목행 및 내용열을 구분하고, 내용열은 고정형, 주소형, 이름형, 데이터형 및 가변형으로 구분하며, 번역이 필요한 텍스트와 원문을 다시 출력할 부분을 특정하여 XML 파일로 재생성하는 문서인식 및 번역검증방법을 제공한다.
또한 본 발명은 상기 인식된 민원서류를 번역하며에 있어서, 상기 제1민원서류의 고정형 타입은 제1민원서류에서 고정된 부분으로서 일대일로 대응되어 번역되고, 상기 제1민원서류의 주소형 타입은 주소 데이터로부터 대응하는 외국어 주소로 번역되며, 상기 제1민원서류의 성명형 타입은 통계상 가장 많이 사용되는 외국어 성명으로 우선 번역되고, 상기 제1민원서류의 데이터형 타입은 해당 국가의 표기법에 따라 수정되며, 상기 제1민원서류의 가변형 타입은 필수로 표기되는 내용 이외에 가변적으로 기입될 수 있는 부분으로서, 종래에 분석된 민원서류에서의 다빈도 노출 용어 및 문장에 따라 번역되는 문서인식 및 번역검증방법을 제공한다.
또한 본 발명은 상기 번역된 데이터가 제1민원서류의 XML 파일 상의 위치 값 및 제목행의 분석을 통하여 제2민원서류의 대응하는 위치에 기입되는 문서인식 및 번역검증방법을 제공한다.
또한 본 발명은 문서서식을 구성하는 열과 행의 라인 수와 연속성을 기준으로 판단하되, 서식의 열과 행을 각 X, Y로 정의할 때 하기 식에 의해 정해지는 문서인식 및 번역검증방법을 제공한다.
(1) 행의 열 서식에 따른 기준
서식세로(A) : 셀의 라인수 X1, X2, …, Xn
서식세로 간격 수(B) : Xn-1과 Xn 연속인 경우 Xn-2, (B0)
Xn-1과 Xn 불연속인 경우 Xn (B1)
(2) 열의 행 서식에 따른 기준
서식가로(C) : 각 셀의 수 Y1, Y2, …, Yn
서식가로 간격 수(D) : Yn-1과 Yn 연속인 경우 Yn-2, (D0)
Yn-1과 Yn 불연속인 경우 Yn (D1)
또한 본 발명은 상기 인식된 서식세로(A), B0 또는 B1, 서식가로(B), D0 또는 D1 값과 서식DB에 저장된 값을 대비하여 일치하는 데이터를 서식의 종류로 결정하는 문서인식 및 번역검증방법을 제공한다.
또한 본 발명은 또한 본 발명은 상기 인식된 문서종류의 분류에 따라 대응하는 동일 서식 또는 이 서식에 대응할 수 있는 대체 문서 또는 해외문서 서식을 매칭하는 문서인식 및 번역검증방법을 제공한다.
본 발명의 민원서류 처리 방법은, 사용자가 제공한 민원서류를 정확히 인식하여 번역이나 검증에 이르는 과정에서 오류를 최소화할 수 있는 장점이 있다.
또한 본 발명은 AAR 시스템에 의한 번역과 검증을 통해 데이터 기반 번역 및 검증물을 제공할 수 있는 특징이 있다.
또한 본 발명은 서류의 종류를 인식하고 소정의 언어로 번역 및 검증하여 사용자가 원하는 서류를 업로딩하는 것으로 필요한 번역과 공증 등의 절차가 이루어질 수 있는 방법을 제공하는 특징이 있다.
도 1은 본 발명의 일실시예에 의한 민원서류 처리시스템을 도시한 구성도
도 2는 본 발명의 일실시예에 의한 관리자서버의 구성을 나타낸 개념도
도 3은 본 발명의 일실시예에 의한 실행서버의 구성을 내타낸 개념도
도 4는 본 발명의 일실시예에 의한 민원서류 처리 프로세스를 나타낸 흐름도
도 5는 본 발명의 일실시예에 의한 민원서류 처리 정보 흐름도
도 6 및 7은 본 발명의 일실시예에 의한 민원서류의 서식인식의 예
도 8은 본 발명의 일실시예에 의한 민원서류의 서식인식 및 자동번역의 예
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 본 발명은 다양한 변경을 도모할 수 있고, 여러 가지 실시 예를 가질 수 있는바, 아래에서 설명되고 도면에 도시된 예시들은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 또한, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
본 명세서에서 "민원서류" 라 함은 국가기관, 공공기관, 학교, 민간기업 등에서 그 무엇을 증명, 설명, 입증, 보증 등을 위해 발급하는 모든 형태의 일반 문서(Hard copy) 내지 전자적 문서(Soft copy)를 포함하며, 규정된 서식 또는 비정형 서식을 모두 포함하는 의미로 사용될 수 있다.
도 1은 본 발명의 일시시예에 의한 민원서류 처리시스템을 나타낸 것으로서 본 발명의 일실시예에 의한 민원서류 처리시스템은 사용자서버 100, 관리자서버 200, 실행서버 300으로 이루어질 수 있다.
사용자서버 100은 사용자가 발급받은 민원서류가 이미지화된 또는 이미지화 가능한 휴대폰이나 카메라 또는 스캐너, 팩스 등과 같은 장치일 수 있으며 상기 장치의 이미지 파일화 수단을 통해 이미지화된 민원서류 파일을 관리자 서버에 제공할 수 있다. 상기 민원서류가 관리자 서버에 제공될 때 로그인이나 결재 등이 요청될 수도 있다. 이때, 민원서류 파일은 통신망을 통하여 관리자서버에 제공될 수 있는데, 통신망은 유선 또는 무선 통신망이 이용될 수 있다.
상기 사용자서버 100으로부터 민원서류정보(민원서류파일)를 입력받은 관리자서버 200은 도 2에 도시된 바와 같이 상기 민원서류정보를 입력받아 저장하는 입력부 210, 제1민원서류관리부 220, 제2민원서류관리부 230, 정보처리부 240, 데이터송수신모듈 250, 사용자정보처리부 260으로 이루어질 수 있다.
상기 입력부 210은 상기 민원서류정보를 입력받아 저장하는 기능을 수행할 수 있으며, 상기 제1 및 제2민원서류관리부 220, 230은 본 발명의 시스템 및 방법에서 수행된 제1 및 제2민원서류의 생성 및 수정 등을 지시하는 역할을 수행할 수 있다. 상기 정보처리부 240은 실행서버 300와의 네트워킹을 수행하며, 데이터송수신모듈 250은 실행서버 300에서 처리된 민원서류를 사용자에게 제공하는 역할을 수행할 수 있다. 사용자정보처리부 260은 입력받은 사용자개인정보보호와 결재정보 등 개인정보값을 암호화하는 등의 기능을 수행할 수 있다.
상기 실행서버 300은 이미지교정부 310, 인식부 330, 번역부 350로 이루어질 수 있다. 상기 이미지교정부 310은 제공된 민원서류 이미지 인식이 불가할 경우 수행될 수 있으며, 인식부 330은 서식DB 333에 저장된 서식정보와 매칭을 통해 어떠한 서식인지 인지하는 서식인식부 331, AAR DB 334의 교정정보를 포함하는 문자 내지 숫자 등을 인식하는 문자인식부 332를 포함하고, 해당 서류의 소정 언어로 번역하는 번역부 350을 포함하고 상기 번역부는 검수/교정 DB에 포함된 정보를 반영할 수 있다.
도 4는 본 발명의 일실시예에 의한 민원서류 처리 프로세스를 나타낸 흐름도이며 도 5는 본 발명의 일실시예에 의한 민원서류 처리 정보 흐름도를 나타낸 것이다.
사용자는 발급받은 민원서류를 휴대폰, 카메라, 팩스 또는 스캐너 등 이미지화수단을 통해 관리자서버 200로 상기 이미지파일을 업로딩 할 수 있다.(S1) 이 때 사용자개인정보, 결재정보 등이 입력되어야 하나 통상의 수단으로 구현가능하므로 상세한 설명은 생략하기로 하고 사용자정보처리부 260에 의해 이루어질 수 있다. 상기 이미지 파일은 통신망을 통하여 관리자서버 200에 제공될 수 있는데, 통신망은 유선 또는 무선 통신망이 이용될 수 있다.
관리자서버로 업로딩된 민원서류 파일은 실행서버 300로 전송되어 비제한적인 예로서 OCR을 통해 인식될 수 있으며 특정 형태의 파일, 일실시예에 따르면 XML 파일로 저장된다.
한편 선택적으로 실행서버의 이미지교정부 310에 의해 인식률 향상을 위한 이미지 교정 단계(S3)를 거칠 수 있으며 Auto Cropping, Skew, Perspective 및 Compensation 기법 등이 이용될 수 있다. 이를 통하여 밝기, 대비, 픽셀이나 원근에 의한 왜곡 및 기울기 조정, 음영 제거, 사이즈 조절, 각도 보정 및 문서 높낮이에 따른 마름모 이미지 보정 등이 이루어질 수 있다.
한편 상기와 같은 이미지 보정에도 불구하고 또는 이미지 보정 전 이미지의 불완전성으로 인해 인식이 불가한 것으로 판단되는 경우 관리자서버를 통해 사용자에게 인식불가를 통보하고 종료되거나 이미지 재전송을 요청할 수 있다(S2).
상기 이미지 보정을 하거나 보정없이 이미지 인식 단계(S4)를 거치게 된다. 본 발명에 일실시예에 의한 이미지인식은 인식부 300의 서식인식부 331 및 문자인식부 332에 의해 이루어질 수 있다. 상기 설명한 바와 같이 민원서류는 수천 내지 수만건의 종류가 존재할 수 있는데, 문자를 인식하고 정확한 번역이 이루어지기 위해 종래의 단순한 OCR 인식만으로는 그 정확성이 낮아질 수밖에 없다. 이에 본 발명자의 수많은 시험결과 문서종류가 인식 전 또는 동시에 판단되는 경우 그 문서에 따라 사용되는 용어나 형식이 정형화될 수 있어 인식 및 번역에 있어서 상당한 오류를 제어할 수 있다는 점을 알게 되었다.
본 발명의 일실시예에 의한 문서종류의 인식은 서식인식부 331에 의해 수행될 수 있고 하기 기준에 의해 생성된 서식값은 서식DB의 값과 대비되어 일치된 값을 같는 서식으로 인식될 수 있다. 비제한적인 예로서 아래와 같이 이루어질 수 있다. 도 6 및 7은 이의 예를 나타낸 것으로 도 6은 주민등록등본의 예이고, 도 7은 가족관계증명서의 예이다.
본 발명의 일실시예에 의한 문서인식은 서식을 구성하는 열과 행의 라인 수와 연속성을 기준으로 판단될 수 있다.
서식의 열과 행을 각 X, Y로 정의할 때 아래와 같이 정의될 있다.
(1) 행의 열 서식에 따른 기준
서식세로(A) : 셀의 라인수 X1, X2, …, Xn
서식세로 간격 수(B) : Xn-1과 Xn 연속인 경우 Xn-2, (B0)
Xn-1과 Xn 불연속인 경우 Xn (B1)
(2) 열의 행 서식에 따른 기준
서식가로(C) : 각 셀의 수 Y1, Y2, …, Yn
서식가로 간격 수(D) : Yn-1과 Yn 연속인 경우 Yn-2, (D0)
Yn-1과 Yn 불연속인 경우 Yn (D1)
도 6의 주민등록등본을 예로서 설명하면, 서식의 메인바디를 구성하는 서식에서 첫행의 서식세로(A)는 5개로 X5의 값을 갖으며 서식세로 간격수(B)는 3개이므로 Xn-2의 값을 갖게 되므로 첫행의 열 서식은 서로 분리되지 않은 연속된 것으로 인식되고, Y1 : X5, B0로 저장된다. 서식의 두번째의 서식세로(A)는 2개로 X2의 값을 갖으며 서식세로 간격수(B)는 0개이므로 Xn-2의 값을 갖게 되므로 두 번째 행의 열 서식은 서로 분리되지 않은 연속된 것으로 인식되고, Y2 : X2, B0로 저장된다. 서식의 세번째의 서식세로(A)는 3개로 X3의 값을 갖으며 서식세로 간격수(B)는 1개이므로 Xn-2의 값을 갖게 되므로 세 번째 행의 열 서식은 서로 분리되지 않은 연속된 것으로 인식되고, Y3 : X3, B0로 저장된다. 이와 같이 각 행을 구성하는 열의 정보값이 인식된다.
또 열에 대한 행의 서식을 살펴보면 서식가로(C)는 17개로 Y17의 값을 같으며, 서식가로 간격수(D)는 15개이므로 Yn-2의 값을 갖게 되므로 첫열의 행 서식은 서로 분리되지 않은 연속된 것으로 인식되고, X1 : Y17, D0로 저장된다. 이러한 열과 행의 정보와 서식DB의 정보가 일치되는 경우 이 서식은 주민등록등본으로 분류할 수 있다.
또 다른 예로서 가족관계증명서로서 설명하면, 서식의 메인바디를 구성하는 서식에서 첫행의 서식세로(A)는 3개로 X3의 값을 갖으며 서식세로 간격수(B)는 1개이므로 Xn-2의 값을 갖게 되므로 첫행의 열 서식은 서로 분리되지 않은 연속된 것으로 인식되고, Y1 : X3, B0로 저장된다. 서식의 두번째의 서식세로(A)는 7개로 X7의 값을 갖으며 서식세로 간격수(B)는 5개이므로 Xn-2의 값을 갖게 되므로 두 번째 행의 열 서식은 서로 분리되지 않은 연속된 것으로 인식되고, Y2 : X7, B0로 저장된다. 서식의 세번째의 서식세로(A)는 7개로 X7의 값을 갖으며 서식세로 간격수(B)는 5개이므로 Xn-2의 값을 갖게 되므로 세 번째 행의 열 서식은 서로 분리되지 않은 연속된 것으로 인식되고, Y3 : X7, B0로 저장된다. 이와 같이 각 행을 구성하는 열의 정보값이 인식된다.
또 열에 대한 행의 서식을 살펴보면 서식가로(C)는 2개로 Y2의 값을 갖으며, 서식가로 간격수(D)는 2개이므로 Yn의 값을 갖게 되므로 첫열의 행 서식은 다음 열과 분리된 것으로 인식되고, X1 : Y2, D1로 저장된다. 또 두 번째 열의 행서식은 서식가로(C)는 3개로 Y3의 값을 갖으며, 서식가로 간격수(D)는 1개이므로 Yn-2의 값을 갖게 되므로 두 번째 행 서식은 서로 분리된 되지 않은 연속된 것으로 인식되고, X2 : Y3, D0로 저장되며, 세 번째 열서식은 두 번? 열서식과 동일한 X3 : Y3, D0로 인식되어 저장된다. 따라서 2열과 3열은 연속된 것으로 인식될 수 있다. 네 번째 열은 서식가로(C)는 2개로 Y2의 값을 갖으며, 서식가로 간격수(D)는 2개이므로 Yn의 값을 갖게 되므로 네 번째 행 서식은 다른 행과 분리된 것으로 인식되고, X4 : Y2, D1로 저장된다. 이와 같이 잔여 행과 열의 값을 인지하여 서식DB의 일치된 값과 대비하여 서식의 종류를 결정할 수 있다.
한편 본 발명의 또 다른 일실시예로서 문서인식에 대하여 민원서류의 양식 형태에 기초하여 인식될 수 있다. 도 8은 본 발명의 비제한적인 예로서, 가족관계증명서 또는 졸업증명서의 양식의 기본 데이터를 파악하고, 각 텍스트의 위치 데이터 값, 제목행 및 내용열을 구분할 수 있다. 또한, 내용열은 고정형, 주소형, 이름형, 데이터형 및 가변형으로 나눌 수 있고 번역이 필요한 텍스트와 그대로 다시 출력할 부분, 예를 들어 아라비아 숫자 등을 특정하여 XML 파일로 재생성할 수 있다. 이와 같은 형태 문서종류의 인식은 후술할 자동번역에 있어서 오류를 감소시킬 수 있는 장점이 있다.
이와 같이 서식DB에는 국내외의 다양한 민원서류 양식이 저장되어 있으며, 데이터베이스의 민원서류 양식 데이터로부터 대응하는 민원서류 양식을 불러올 수 있다. 즉, 예를 들면 국내 민원서류에 대응하는 국외 제출용 민원서류를 불러올 수도 있다.
상기 문서종류를 인식하고 또는 인식과 동시에 문자 내지 숫자 등을 인식할 수 있다. 문자/숫자 인식 처리는 실행서버의 문자인식부 332에서 이루어질 수 있으므로, 사용자의 단말 장치에 이미지 인식 처리와 관련된 특정 프로그램이 설정될 필요가 없다. 따라서 OS 별로 프로그램을 개발할 필요가 없고 사용자 단말 장치의 성능이나 사양에 관계없이 이미지 인식 처리가 원활하게 이루어질 수 있다. 본 발명의 일실시예에 따르면 이미지 인식은 비제한적인 예로서 OCR을 통하여 이루어질 수 있다.
한편 인식 중 오류 발생 확률이 높은 문자, 예를 들어 '몸'을 '옴'으로, 영문자 'S'를 아라비아 숫자 '5'로 잘못 인식하는 것을 방지하기 위하여 단어의 공기(共起)관계를 파악할 수 있다. 민원서류 처리 서버의 데이터베이스에는 오인식된 글자에 대해 학습된 데이터가 저장되며, 기존의 저장된 데이터를 바탕으로 오인식된 글자가 바른 글자로 교정될 수 있다. 이러한 교정을 위해 실행서버에 자동교정수단인 AAR(Automatic Advance Recognition)DB를 두고 인공신경망 기반 교정, 학습을 통해 보다 향상된 교정수단이 제공될 수 있다.
상기와 같이 인식된 문서는 "제1민원서류"로 정의될 수 있고, 선택적으로 관리자서버를 거쳐 사용자에게 제공되어 인식정보에 대하여 검증을 할 수도 있다.
상기 인식 내지 사용자 검증이 완료된 제1민원서류는 실행서버의 번역부 350에 의해 목적 언어로 번역될 수 있다. 텍스트의 목적 언어 값은 데이터베이스의 목적 언어 테이블에서 XML의 텍스트를 목적 언어로 치환할 값을 불러와 자동으로 번역한다. 이때, 기존에 교정되어 데이터베이스 351에 저장된 학습데이터를 기반으로 번역될 수 있다(S5).
번역된 데이터는 데이터베이스로부터 불러온 민원서류에 입력될 수 있는데(S6), 이를 "제2민원서류" 로 정의될 수 있다. 상기 제2민원서류 및 번역 언어의 국가는 사용자에 의해 선택될 수 있다.
상기 문서인식의 또 다른 예로서 설명된 도 8을 참조하여 설명하면 제1민원서류에서 번역 대상이 되는 내용은 여러 가지 타입(Type)으로 구분될 수 있는데, 고정형 타입 510, 주소형 타입 520, 성명형 타입 530, 데이터형 타입 540 및 가변형 타입 550으로 구분될 수 있다.
상기 고정형 타입 510은 제1민원서류에서 변동이 되지 않는 내용으로서 문서 제목과 같이 고정된 부분으로서 일대일로 대응되어 번역된다. 데이터베이스 351에는 국내의 다양한 민원서류에 대한 데이터가 기저장되며, 민원서류의 한글 제목에 대응하는 외국어 제목으로 번역될 수 있다. 일례로 '기본증명서'는 'Identification Certificate'로 번역되는 식이다.
상기 주소형 타입 520은 주소 데이터로부터 대응하는 외국어 주소로 번역될 수 있다. 주소 번역은 데이터베이스 351에 기저장되는 주소 데이터를 이용하거나, 외부의 주소 데이터 서버에 접속하여 이루어질 수 있다.
상기 성명형 타입 530에 따르면, 동일한 성명이라도 개인에 따라 다른 영문 또는 외국어 성명을 사용할 수 있으므로 통계상 가장 많이 사용되는 외국어 성명으로 우선 번역되며, 이는 제2민원서류의 사용자 검토 과정에서 교정될 수 있다.
상기 데이터형 타입 540은 해당 국가의 표기법에 따라 수정될 수 있으며, 대표적으로 날짜 등이 있다.
상기 가변형 타입 550은 민원서류 상에서 필수로 표기되는 내용 이외에 특수한 상황 등에 따라 가변적으로 기입될 수 있는 부분이다. 가변형 타입의 번역을 위하여 종래에 분석된 민원서류에서의 다빈도 노출 용어 및 문장에 대한 번역 데이터가 데이터베이스 351에 기 저장되고, 저장된 데이터를 통하여 번역을 진행한다. 저장된 데이터에 일치하는 데이터가 없는 경우에는 제2민원서류의 사용자 검토 과정 시 사용자 및 감수자가 추가 입력 또는 교정한 데이터 중 빈도가 가장 높은 번역 데이터가 우선적으로 노출되어 제공된다. 또한, 다빈도 순으로 번역 데이터가 추가 제공되어 참조 형식으로 교정 화면에 노출된다.
상기 여러 타입 중에서 고정형 타입 510은 사용자에 따라 변하지 않는 정보로서 고정정보필드로 인식될 수 있다. 또한, 주소형 타입 520, 성명형 타입 530, 데이터형 타입 540 및 가변형 타입 550은 사용자에 따라 내용이 다를 수 있는 입력정보필드로 인식될 수 있다. 또한, 상기 타입에 해당하지 않는 내용도 자동으로 번역된다.
상기 번역된 데이터는 제1민원서류의 XML 파일 상의 위치 값 및 제목행의 분석을 통하여 제2민원서류의 대응하는 위치에 기입된다. 번역된 제2민원서류 파일은 사용자의 단말 장치로 제공되고, 사용자는 제2민원서류에서 본인의 영문 스펠링 및 단어의 오탈자 등을 검토하여 교정할 수 있으며, 검토를 거친 제2민원서류는 데이터베이스에 업로딩되어 저장될 수 있다.
한편 상기 설명된 바와 같이 선택적으로 제2민원서류가 사용자에게 제공되기 전 제1민원서류 정보가 사용자에게 제공되어 제1민원서류의 정확성을 제고할 수 있고, 제2민원서류가 완성된 이후 제2민원서류만 사용자에게 완성검증을 받을 수 있다.
제2민원서류에 대한 완성정보가 사용자에게 제공되면 사용자는 제2민원서류의 내용을 검토하여 내용을 수정하거나 오탈자를 교정할 수 있다(S7). 상기 검증을 마친 제1 내지 제2민원서류는 사용자서버를 통해 관리자서버를 거쳐 감수자서버(미도시)에 제공될 수 있다. 선택적으로 사용자의 감수 요청(S8)에 따라 번역 검토되고 필요한 경우 교정될 수 있다(S9). 감수자 검토가 완료된 제2민원서류는 관리자서버를 거쳐 사용자에게 제공되고 데이터베이스에 저장된다.
제1민원서류 및 제2민원서류의 감수자 제공 시에 개인정보 중 민감 부분, 예를 들어 주민등록번호 등은 노출되지 않도록 자동으로 마킹되거나, 사용자에 의해 선택적으로 마킹될 수 있다.
최종적으로 완성검증정보 내지 검수정보가 완료된 제2민원서류는 공증 이관을 거치는데, 제1민원서류 및 제2민원서류를 이용하여 공증인이 공증을 하게 되며 사용자의 단말 장치로 공증 진행 상황 및 완료 과정이 노출될 수 있다(S10).
번역 공증된 제2민원서류는 외교부의 아포스티유 또는 본부영사 확인(총칭 : 외교부 인증) 과정을 거친다(S11). 이때, 본 발명의 일실시예에 따르면 아포스티유 인증을 받은 경우에는 대사관인증이 불필요하므로 사용자의 단말 장치에는 일례로 '인증 단계 완료'라고 표시될 수 있고, 본부영사확인을 받은 경우에는 제출 국가로의 대사관 인증이 이루어져야 하므로 사용자의 단말 장치에는 일례로 '대사관 인증 준비 중'이라고 표시되고 옵션에 따라 예상 소요 시간이 노출될 수 있다.
또한, 외교부 인증을 마친 제2민원서류는 대사관 인증을 진행하게 되는데(S12), 데이터베이스에는 각 대사관에 따른 소요 시간이 미리 저장되고, 이를 통해 국가별 인증의 예상 소요 시간 및 예상 완료 일자가 사용자 단말 장치에 노출될 수 있다.
모든 인증을 마친 제2민원서류는 제출처에 따라 국내 및 해외 배송이 이루어지는데(S13), 우체국 및 DHL등의 배송사를 통해 발송하는 경우 운송장 정보는 해당 배송사의 API와 연계되어 배송 추적이 가능하다. 배송 완료 시에는 사용자 단말 장치에 배송 완료 화면을 노출하여 모든 프로세스가 완료되었음을 알릴 수 있다(S14).
이상과 같이, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술사상과 아래에 기재될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형이 가능하다.

Claims (6)

  1. 민원서류의 종류를 인식함에 있어
    양식의 기본 데이터를 파악하고, 각 텍스트의 위치 데이터 값, 제목행 및 내용열을 구분하고,
    내용열은 고정형, 주소형, 이름형, 데이터형 및 가변형으로 구분하며,
    번역이 필요한 텍스트와 원문을 다시 출력할 부분을 특정하여 XML 파일로 재생성하는 문서인식 및 번역검증방법.
  2. 상기 인식된 민원서류를 번역하며에 있어서
    상기 제1민원서류의 고정형 타입은 제1민원서류에서 고정된 부분으로서 일대일로 대응되어 번역되고,
    상기 제1민원서류의 주소형 타입은 주소 데이터로부터 대응하는 외국어 주소로 번역되며,
    상기 제1민원서류의 성명형 타입은 통계상 가장 많이 사용되는 외국어 성명으로 우선 번역되고,
    상기 제1민원서류의 데이터형 타입은 해당 국가의 표기법에 따라 수정되며,
    상기 제1민원서류의 가변형 타입은 필수로 표기되는 내용 이외에 가변적으로 기입될 수 있는 부분으로서, 종래에 분석된 민원서류에서의 다빈도 노출 용어 및 문장에 따라 번역되는 문서인식 및 번역검증방법.
  3. 제1항 또는 제2항에 있어서,
    상기 번역된 데이터는 제1민원서류의 XML 파일 상의 위치 값 및 제목행의 분석을 통하여 제2민원서류의 대응하는 위치에 기입되는 문서인식 및 번역검증방법.
  4. 제1항에 있어서,
    문서서식을 구성하는 열과 행의 라인 수와 연속성을 기준으로 판단하되, 서식의 열과 행을 각 X, Y로 정의할 때 하기 식에 의해 정해지는 문서인식 및 번역검증방법.
    (1) 행의 열 서식에 따른 기준
    서식세로(A) : 셀의 라인수 X1, X2, …, Xn
    서식세로 간격 수(B) : Xn-1과 Xn 연속인 경우 Xn-2, (B0)
    Xn-1과 Xn 불연속인 경우 Xn (B1)
    (2) 열의 행 서식에 따른 기준
    서식가로(C) : 각 셀의 수 Y1, Y2, …, Yn
    서식가로 간격 수(D) : Yn-1과 Yn 연속인 경우 Yn-2, (D0)
    Yn-1과 Yn 불연속인 경우 Yn (D1)
  5. 제4항에 있어서,
    상기 인식된 서식세로(A), B0 또는 B1, 서식가로(B), D0 또는 D1 값과 서식DB에 저장된 값을 대비하여 일치하는 데이터를 서식의 종류로 결정하는 문서인식 및 번역검증방법.
  6. 제1항 또는 제4항에 있어서,
    상기 인식된 문서종류의 분류에 따라 대응하는 동일 서식 또는 이 서식에 대응할 수 있는 대체 문서 또는 해외문서 서식을 매칭하는 문서인식 및 번역검증방법.
KR1020170159620A 2017-11-27 2017-11-27 문서인식 및 번역검증방법 KR20190061343A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170159620A KR20190061343A (ko) 2017-11-27 2017-11-27 문서인식 및 번역검증방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170159620A KR20190061343A (ko) 2017-11-27 2017-11-27 문서인식 및 번역검증방법

Publications (1)

Publication Number Publication Date
KR20190061343A true KR20190061343A (ko) 2019-06-05

Family

ID=66844902

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170159620A KR20190061343A (ko) 2017-11-27 2017-11-27 문서인식 및 번역검증방법

Country Status (1)

Country Link
KR (1) KR20190061343A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230000835A (ko) * 2021-06-25 2023-01-03 김병구 공문서의 외국어 번역 처리 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020063349A (ko) 2001-01-27 2002-08-03 에스케이 텔레콤주식회사 민원서류발급대행 서비스방법
KR100439413B1 (ko) 2000-11-30 2004-07-09 강남구청 영문 주민등록등·초본 발급 시스템
KR100912502B1 (ko) 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100439413B1 (ko) 2000-11-30 2004-07-09 강남구청 영문 주민등록등·초본 발급 시스템
KR20020063349A (ko) 2001-01-27 2002-08-03 에스케이 텔레콤주식회사 민원서류발급대행 서비스방법
KR100912502B1 (ko) 2007-07-27 2009-08-17 한국전자통신연구원 Pdf 파일을 대상으로 하는 자동 번역 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230000835A (ko) * 2021-06-25 2023-01-03 김병구 공문서의 외국어 번역 처리 장치

Similar Documents

Publication Publication Date Title
US9152859B2 (en) Property record document data verification systems and methods
US8732570B2 (en) Non-symbolic data system for the automated completion of forms
US8064703B2 (en) Property record document data validation systems and methods
WO2020233035A1 (zh) 一种信息校验方法及相关设备
JP2008276766A (ja) フォーム自動埋込方法及び装置
US8718367B1 (en) Displaying automatically recognized text in proximity to a source image to assist comparibility
US8386535B2 (en) Form processing cloud service with template repository
US20120189999A1 (en) System and method for using optical character recognition to evaluate student worksheets
RU2634194C1 (ru) Верификация результатов оптического распознавания символов
US10225431B2 (en) System and method for importing scanned construction project documents
US9767388B2 (en) Method and system for verification by reading
JP2009522675A (ja) 遠隔に記憶されたテンプレートを使用する自動化された処理(書式を処理する方法、該書式を処理する装置)
US20170372439A1 (en) Systems and methods for generating structured data based on scanned documents
KR20190061342A (ko) 민원서류 처리 방법 및 시스템
CN107025252B (zh) 实现出版文献的实时可用性的方法、系统和程序
US20210264556A1 (en) Automatically attaching optical character recognition data to images
US9384180B2 (en) Methods and systems for processing filled forms
US11631268B2 (en) Information processing apparatus and non-transitory computer readable medium
KR20190061343A (ko) 문서인식 및 번역검증방법
US20070217691A1 (en) Property record document title determination systems and methods
US20110102860A1 (en) Device for identifying types of document files
KR20190061341A (ko) 문서양식 분류방법
CN113792570A (zh) 理赔数据处理方法、装置、电子设备及可读介质
KR101877609B1 (ko) 특정 문자열의 표시 제어가 가능한 화상처리장치
JP2007052614A (ja) 文書管理装置、文書管理システムおよび文書管理方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E601 Decision to refuse application