KR20190026641A - 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체 - Google Patents

클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체 Download PDF

Info

Publication number
KR20190026641A
KR20190026641A KR1020187023693A KR20187023693A KR20190026641A KR 20190026641 A KR20190026641 A KR 20190026641A KR 1020187023693 A KR1020187023693 A KR 1020187023693A KR 20187023693 A KR20187023693 A KR 20187023693A KR 20190026641 A KR20190026641 A KR 20190026641A
Authority
KR
South Korea
Prior art keywords
model
predetermined
training
divided
document
Prior art date
Application number
KR1020187023693A
Other languages
English (en)
Other versions
KR102171220B1 (ko
Inventor
이 치유
Original Assignee
핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 filed Critical 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Publication of KR20190026641A publication Critical patent/KR20190026641A/ko
Application granted granted Critical
Publication of KR102171220B1 publication Critical patent/KR102171220B1/ko

Links

Images

Classifications

    • G06K9/344
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

본 발명은 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체를 개시하고, 이 방법은 서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와, 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 포함한다. 본 발명은 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하여, 문자 인식을 하기 전에 먼저 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하고 각 분할 영역에 대하여 문자 인식을 하면 전체의 클레임 서류 영상의 문자를 통일적으로 인식할 때 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향 및 방행을 방지하여 효율적으로 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.

Description

클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체
본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히 클레임 서류의 문자 인식 방법, 장치, 서버 및 컴퓨터 판독 가능한 저장매체에 관한 것이다.
대중의 보험 의식이 강해짐에 따라 보험을 구매하는 고객층이 대폭 증가하고 보험 회사가 처리하여야 할 고객 클레임 신청이 많아지고 보험 회사 작업 인원이 입력하여야 할 클레임 서류 영상도 많아져서, 서류를 입력하는 작업인원의 일손이 부족하는 동시에 서류를 입력할 때 자주 실수를 저지른다. 서류 입력의 실수를 줄이고 서류 입력의 효율을 향상시키기 위해 현재, 일부 보험회사가 서류 입력 작업 과정에서 OCR (Optical Character Recognition, 광 문자 인식)기술을 도입하여 클레임 서류 영상의 문자을 자동적으로 인식하여 해당 입력 란에 기입한다.
하지만, 기존의 OCR 기술을 이용하여 클레임 서류 영상의 문자을 인식하는 방안은 자신의 인식 엔진만 이용하여 전체의 클레임 서류 영상의 문자에 대해 통일적으로 인식하며 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하지 않고 서류에서의 프레임 라인이 문자 인식에 대한 영향을 고려하지 않아서 기존의 인식 방안의 인식 정밀도가 높지 않고 검증하는데 대량의 인력과 물력을 필요한다.
본 발명의 주된 목적은 클레임 서류의 인식 정밀도를 향상시키기 위해, 클레임 서류의 문자 인식 방법, 장치, 서버 및 컴퓨터 판독 가능한 저장매체를 제공하고자 한다.
상기 목적을 달성하기 위해, 본 발명은 첫번째 방면에 있어서 클레임 서류의 문자 인식 방법을 개시하고 상기 방법은 다음과 같은 단계를 포함한다.
서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
본 발명은 두번째 방면에 있어서 클레임 서류의 문자 인식 장치를 개시하고 상기 문자 인식 장치는 다음과 같은 모듈을 포함한다.
분할 모듈, 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
인식모듈, 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
본 발명은 셋번째 방면에 있어서, 클레임 서류의 문자 인식 서버를 개시하고 상기 클레임 서류의 문자 인식 서버는 저장장치 및 프로세서를 포함하고, 상기 저장장치에 클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 이 프로세서에 의해 실행되어 다음과 같은 단계를 구현할 수 있다.
서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
본 발명은 넷번째 방면에 있어서 컴퓨터 판독 가능한 저장매체를 개시하고, 이 컴퓨터 판독 가능한 저장매체에는 클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 적어도 하나의 프로세서에 의해 실행되어 다음과 같은 단계를 구현할 수 있다.
서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
기존의 기술과 비교해보면, 본 발명은 클레임 서류의 문자 인식 방법, 장치, 서버 및 컴퓨터 판독 가능한 저장매체를 개시하고, 클레임 서류 영상에 대한 문자 인식을 하기 전에 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 이에 대해 영역 분할을 하며 미리 결정된 인식 규칙을 이용하여 이 클레임 서류의 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다. 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하여, 문자 인식을 하기 전에 먼저 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하고 각 분할 영역에 대하여 문자 인식을 하면 전체의 클레임 서류 영상의 문자를 통일적으로 인식할 때 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향 및 방행을 방지하여 효율적으로 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.
도1은 본 발명에 따른 클레임 서류의 문자 인식 방법의 제1실시예의 흐름도이다.
도2는 본 발명에 따른 클레임 서류의 문자 인식 방법의 제2실시예의 흐름도이다.
도3은 본 발명에 따른 클레임 서류의 문자 인식 장치의 제1실시예의 기능 모듈의 도면이다.
도4는 본 발명에 따른 클레임 서류의 문자 인식 서버의 제1실시예의 도면이다.
본 발명의 목적 실현, 기능 특징 및 장점에 대해 실시예를 통해 도면을 참조하여 설명하기로 한다.
본 발명이 해결하고자 하는 기술문제, 기술방안, 유익 효과를 더 명확하고 뚜렷하게 되기 위해, 하기와 같은 도면과 실시예를 통해 본 발명에 대해 진일보 상세하게 설명하기로 한다. 여기서에서 설명하는 구체적인 실시예는 본 발명을 예시적으로 설명하기 위한 것일 뿐 본 발명을 한정하기 위한 것이 아니다.
본 발명은 클레임 서류의 문자 인식 방법을 개시한다.
도1을 참조하면, 도1은 본 발명에 따른 클레임 서류의 문자 인식 방법의 제1실시예의 흐름도이다.
제1실시예에 있어서, 이 클레임 서류의 문자 인식 방법은 다음과 같은 단계를 포함한다.
단계(S10), 서버는 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
본 실시예에 있어서, 서버는 사용자가 보낸 문자인식할 클레임 서류의 영상을 포함하는 문자인식 요청을 수신할 수 있고, 예를 들어, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기로 보내는 문자인식 요청을 수신하고, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에 미리 설치된 클라이언트에서 보내는 문자인식 요청을 수신하거나 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에서의 브라우저 시스템에서 보내는 문자인식 요청을 수신한다.
서버가 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하고 레임 서류의 영상에 그의 프레임 포맷에 따라 가로나 세로 프레임 라인이 배열되어 각 항목의 입력 란을 구성하여 사용자가 해당 정보를 기입할 수 있다. 본 실시예는 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다. 예를 들어, 일 실시방식에 있어서, 일반적으로 상이한 유형의 보험과 대응되는 서류 포맷 템플릿이 상이하기 때문에 사용자가 미리 업로드한 서류 유형(상이한 보험은 상이한 서류 포맷이 있을 수 있다)에 따라 해당 서류 템플릿을 획득하고 템플릿의 포맷에 따라 분할한다. 예를 들어, 수신한 문자인식할 클레임 서류 영상의 서류 유형에 따라 이 클레임 서류 영상과 대응되는 서류 템플릿을 찾고 그과 대응되는 서류 템플릿에 따라 영역 분할을 한다. 이 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역이고 이 분할 영역은 프레임 라인을 포함하지 않은 영역으로, 후속으로 각 분할 영역에 대한 문자인식을 할 때 프레임 라인이 인식 정밀도에 대한 방해 및 영향을 방지하도록 하며, 이 분할 영역은 excel 테이블의 각 체크와 유사하고, excel 테이블의 각 체크는 최소영역에서 프레임 라인이 포함되지 않은 영역이다.
단계(S20), 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 클레임 서류 영상에 대해 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한 후, 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자, 즉, 클레임 서류 영상에서의 문자를 인식하도록 한다. 예를 들어, 미리 결정된 분석 모델을 이용하여 각 분할 영역에 적용된 인식 모델 또는 인식 방식을 분석하고 분석된 결과에 따라 각 분할 영역에 대하여 각 분할 영역에 적합한 자신 인식 모델이나 인식 방식을 이용하여 문자 인식을 하여 문자 인식의 정확도를 향상시키도록 한다. 예를 들어, 상이한 분할 영역에 대하여, 문자 인식의 방식이 광 문자 인식 엔진을 이용하여 인식하는 방식인 것으로 분석될 수도 있고, 다른 인식 엔진이나 훈련된 인식 모델을 이용하여 인식할 수도 있으며 여기서 한정하지 않는다. 각 분할 영역에서의 문자가 인식되고 각 분할 영역에서의 문자를 자동적으로 이 클레임 서류 영상과 대응되는 전자 클레임 서류의 각 항목의 입력 란에 기입, 입력할 수도 있다.
본 실시예는 클레임 서류 영상에 대한 문자 인식을 하기 전에 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 이에 대해 영역 분할을 하며 미리 결정된 인식 규칙을 이용하여 이 클레임 서류의 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다. 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하여, 문자 인식을 하기 전에 먼저 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하고 각 분할 영역에 대하여 문자 인식을 하면 전체의 클레임 서류 영상의 문자를 통일적으로 인식할 때 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향 및 방행을 방지하여 효율적으로 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.
도2에 도시된 바와 같이, 본 발명의 제2실시예는 클레임 서류의 문자 인식 방법을 개시하고 상기 실시예에 기초하여 상기 단계(S20)는 다음과 같은 단계를 포함한다.
단계(S201), 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 한다.
단계(S202), 미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 한다.
본 실시예는 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한 후, 회득된 분할 영역에 대한 인식을 하기 전에 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 깊이 인식할 필요가 없는 제1분할영역과 깊이 인식할 필요가 있는 제2분할영역으로 분석되도록 한다. 예를 들어, 현재 자신의 인식 엔진이 OCR 문자 인식 엔진인 경우, OCR 문자 인식 엔진에 의해 정확 인식되거나 인식률이 높은 영역을 깊이 인식할 필요가 없는 영역으로 할 수 있고, 즉, 현재 자신의 OCR 문자 인식 엔진을 이용하여 이 영역의 문자을 정확하게 인식할 수 있고 단른 인식 방식이 필요없다. OCR 문자 인식 엔진에 의해 정확 인식되지 않거나 인식률이 낮은 영역을 깊이 인식할 필요가 있는 영역으로 하고, 즉, 현재 자신의 OCR 문자 인식 엔진을 이용하여 이 영역의 문자을 정확하게 인식할 수 없고 단른 인식 방식, 즉, 훈련된 인식모델에 의해 문자 인식을 한다.
이 클레임 서류 영상이OCR 문자 인식 엔진을 이용하여 정확하게 인식할 수 있는 제1분할영역과 OCR 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석된 후 분석된 제1분할영역과 제2분할영역에 대하여 상이한 인식 방식을 이용하여 문자 인식을 한다. 미리 결정된 OCR 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 정확하게 인식하도록 한다. 미리 경정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 정확하게 인식하도록 하며, 이 미리 결정된 인식 모델은 대량의 분할 영역 샘플에 대한 훈련된 인식 모델일 수도 있고 자신의 OCR 문자 인식 엔진의 인식 방식보다 복잡하고 인식 효과가 좋은 인식 엔진일 수도 있고, 여기서 한정하지 않는다.
또한, 다른 실시예에 있어서, 상기 미리 결정된 분석 모델은 콘볼루션 신경망(Convolutional Neural Network,줄임말CNN)모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은 다음과 같다.
A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수(예를 들어, 50만개)의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득한다.
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정한다.
C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시킨다.
D. 각각 제1 훈련 세트와 제2훈련 세트로부터 제1 미리 설정 비례(예를 들어, 80%)에 따라 분할 영역을 추출하여 훈련할 분할 영역으로 하며 제1 훈련 세트와 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 한다.
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증한다.
F. 검증 통과율이 미리 설정된 한계값(예를 들어, 98%)보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행한다.
본 실시예는 대량의 클레임 서류 영상 샘플을 이용하여 훈련된 콘볼루션 신경망 모델을 이용하여 분할 영역을 분석하여 클레임 서류에서 OCR 문자 인식 엔진을 이용하여 정확하게 인식할 수 있는 제1분할영역과 OCR 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 정확하게 분석될 수 있어 후속적으로 제1분할영역과 제2분할영역에 대하여 상이한 인식 방식을 각각 이용하여 문자 인식을 정확하게 하여 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.
또한, 다른 실시예에 있어서, 상기 미리 결정된 인식 모델은 장단기기억(Long Short-Term Memory, 줄임말 LSTM)모델이고 상기 미리 결정된 인식 모델의 훈련 과정은 다음과 같다.
미리 설정된 개수(예를 들어, 10만)의 영역 샘플을 획득하고 이 영역 샘플은 이력 데이터에서 여러 클레임 서류에 대해 그의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 한 후의 분할 영역 샘플일 수 있다. 일 실시방식에 있어서, 통일적으로 분할 영역 샘플에서의 폰트는 검은색으로 설치되고, 배경은 백색으로 설치되어 문자 인식이 편리하게 된다. 각 분할 영역 샘플을 라벨링할 수 있고 예를 들어, 각 분할 영역 샘플의 명칭은 해당 분할 영역 샘플에 포함된 문자로 명명하여 라벨링한다.
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례(예를 들어, 8:2)에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 제1데이터 세트를 훈련 세트로 하고 제2데이터 세트를 테스트 세트로 하고, 그중, 제1데이터 세트의 샘플 개수 비례가 제2데이터 세트의 샘플 개수 비례보다 크거나 같다.
제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간(예를 들어, 30분이나 1000차 반복 마다)마다 모델을 제2데이터 세트를 이용하여 테스트하여 현재 훈련된 모델의 효과를 평가하도록 한다. 예를 들어, 테스트할 때 훈련된 모델을 이용하여 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수있고 훈련된 모델을 이용하여 분할 영역 샘플에 대한 문자 이식 결과과 해당 분할 영역 샘플의 라벨을 비교할 수 있어 훈련된 모델에 대한 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차를 계산할 수 있다. 구체적으로는, 오차를 계산할 때 편집거리를 계산 표준로 하며, 그 중, 편집거리(Edit Distance)는 또 Levenshtein 거리라고도 말하고, 2개의 문자열 사이에서 하나가 다른 하나로 전환될 때 필요한 최소 편집 동작 횟수를 뜻한다. 허가된 편집 동작은 하나의 문자를 다른 문자로 바꿈, 하나의 문자 삽입, 하나의 문자 삭제를 포함하고, 일반적으로, 편집거리가 작을수록 2개의 문자열의 유사도가 높다. 따라서, 편집거리를 계산 표준으로 하여 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차를 계산할 때 계산된 오차가 작을수록 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨의 유사도가 높고, 반대로 계산된 오차가 클수록 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨의 유사도가 낮다.
이 분할 영역 샘플의 라벨이 이 분할 영역 샘플의 명칭, 즉 이 분할 영역 샘플에 포함된 문자이기 때문에 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차는 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플에 포함된문자 간의 오차이며, 훈련된 모델에 의해 인식된 문자와 정확한 문자 간의 오차가 반영될 수 있다. 매번의 훈련된 모델을 제2데이터 세트를 이용하여 테스트하는 오차를 기록하고 오차의 변화 추이를 분석하며 테스트 시 훈련된 모델이 분할 영역 샘플에 대한 문자 인식의 오차가 발산되는 것으로 분석되면 훈련 파라미터, activation 함수, LSTM 층수, 입출력의 가변차원 등을 조절하여 다시 훈련하고 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴한다. 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 것으로 분석되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 한다.
본 실시예는 OCR 문자 인식 엔진에 의해 인식될 수 없는 영역에 대하여, 훈련된 LSTM 모델을 이용하여 인식하며, LSTM 모델이 대량의 분할 영역 샘플에 의해 훈련되고 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 모델이기 때문에 LSTM 모델 자신의 장기기억 기능에 매칭되어 LSTM 모델이 분할 영역에서의 문자를 인식할 때 모델에 의해 기억된 문맥 정보와 같은 장기정보를 이용하여 분할 영역에서의 문자를 더 정확하게 인식하여 클레임 서류에서의 문자에 대한 인식의 정밀도를 더 향상시킨다.
본 발명은 클레임 서류의 문자 인식 장치를 개시한다.
도3을 참조하면 도3은 본 발명에 따른 클레임 서류의 문자 인식 장치의 제1실시예의 기능 모듈의 도면이다.
제1실시예에 있어서, 이 클레임 서류의 문자 인식 장치는 다음과 같은 모듈을 포함한다.
분할 모듈(01), 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
본 실시예에 있어서, 서버는 사용자가 보낸 문자인식할 클레임 서류의 영상을 포함하는 문자인식 요청을 수신할 수 있고, 예를 들어, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기로 보내는 문자인식 요청을 수신하고, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에 미리 설치된 클라이언트에서 보내는 문자인식 요청을 수신거나 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에서의 브라우저 시스템에서 보내는 문자인식 요청을 수신한다.
서버는 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하고 레임 서류의 영상에 그의 프레임 포맷에 따라 가로나 세로 프레임 라인이 배열되어 각 항목의 입력 란을 구성하여 사용자가 해당 정보를 기입할 수 있다. 본 실시예는 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다. 예를 들어, 일 실시방식에 있어서, 일반적으로 상이한 유형의 보험과 대응되는 서류 포맷 템플릿이 상이하기 때문에 사용자가 미리 업로드한 서류 유형(상이한 보험은 상이한 서류 포맷이 있을 수 있다)에 따라 해당 서류 템플릿을 획득하고 템플릿의 포맷에 따라 분할한다. 예를 들어, 수신한 문자인식할 클레임 서류 영상의 서류 유형에 따라 이 클레임 서류 영상과 대응되는 서류 템플릿을 찾고 그과 대응되는 서류 템플릿에 따라 영역 분할을 한다. 이 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역이고 이 분할 영역은 프레임 라인을 포함하지 않은 영역으로, 후속으로 각 분할 영역에 대한 문자인식을 할 때 프레임 라인이 인식 정밀도에 대한 방해 및 영향을 방지하도록 하며, 이 분할 영역은 excel 테이블의 각 체크와 유사하고, excel 테이블의 각 체크는 최소영역에서 프레임 라인이 포함되지 않은 영역이다.
인식모듈(02), 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 클레임 서류 영상에 대해 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한 후, 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자, 즉, 클레임 서류 영상에서의 문자를 인식하도록 한다. 예를 들어, 미리 결정된 분석 모델을 이용하여 각 분할 영역에 적용된 인식 모델 또는 인식 방식을 분석하고 분석된 결과에 따라 각 분할 영역에 대하여 각 분할 영역에 적합한 자신 인식 모델이나 인식 방식을 이용하여 문자 인식을 하여 문자 인식의 정확도를 향상시키도록 한다. 예를 들어, 상이한 분할 영역에 대하여, 문자 인식의 방식이 광 문자 인식 엔진을 이용하여 인식하는 방식인 것으로 분석될 수도 있고, 다른 인식 엔진이나 훈련된 인식 모델을 이용하여 인식할 수도 있으며 여기서 한정하지 않는다. 각 분할 영역에서의 문자가 인식되고 각 분할 영역에서의 문자를 자동적으로 이 클레임 서류 영상과 대응되는 전자 클레임 서류의 각 항목의 입력 란에 기입, 입력할 수도 있다.
본 실시예는 클레임 서류 영상에 대한 문자 인식을 하기 전에 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 이에 대해 영역 분할을 하며 미리 결정된 인식 규칙을 이용하여 이 클레임 서류의 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다. 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하여, 문자 인식을 하기 전에 먼저 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하고 각 분할 영역에 대하여 문자 인식을 하면 전체의 클레임 서류 영상의 문자를 통일적으로 인식할 때 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향 및 방행을 방지하여 효율적으로 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.
또한, 상기 실시예에 기초하여 상기 인식모듈(02)은 다음과 같은 용도를 포함한다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 한다.
미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 한다.
본 실시예는 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한 후, 회득된 분할 영역에 대한 인식을 하기 전에 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 깊이 인식할 필요가 없는 제1분할영역과 깊이 인식할 필요가 있는 제2분할영역으로 분석되도록 한다. 예를 들어, 현재 자신의 인식 엔진이 OCR 문자 인식 엔진인 경우, OCR 문자 인식 엔진에 의해 정확 인식되거나 인식률이 높은 영역을 깊이 인식할 필요가 없는 영역으로 할 수 있고, 즉, 현재 자신의 OCR 문자 인식 엔진을 이용하여 이 영역의 문자을 정확하게 인식할 수 있고 단른 인식 방식이 필요없다. OCR 문자 인식 엔진에 의해 정확 인식되지 않거나 인식률이 낮은 영역을 깊이 인식할 필요가 있는 영역으로 하고, 즉, 현재 자신의 OCR 문자 인식 엔진을 이용하여 이 영역의 문자을 정확하게 인식할 수 없고 단른 인식 방식, 즉, 훈련된 인식모델에 의해 문자 인식을 한다.
이 클레임 서류 영상이 OCR 문자 인식 엔진을 이용하여 정확하게 인식할 수 있는 제1분할영역과 OCR 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석된 후 분석된 제1분할영역과 제2분할영역에 대하여 상이한 인식 방식을 이용하여 문자 인식을 한다. 미리 결정된 OCR 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 정확하게 인식하도록 한다. 미리 경정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 정확하게 인식하도록 하며, 이 미리 결정된 인식 모델은 대량의 분할 영역 샘플에 대한 훈련된 인식 모델일 수도 있고 자신의 OCR 문자 인식 엔진의 인식 방식보다 복잡하고 인식 효과가 좋은 인식 엔진일 수도 있고, 여기서 한정하지 않는다.
또한, 다른 실시예에 있어서, 상기 미리 결정된 분석 모델은 콘볼루션 신경망(Convolutional Neural Network,줄임말CNN)모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은 다음과 같다.
A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수(예를 들어, 50만개)의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득한다.
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정한다.
C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시킨다.
D. 각각 제1 훈련 세트와 제2훈련 세트로부터 제1 미리 설정 비례(예를 들어, 80%)에 따라 분할 영역을 추출하여 훈련할 분할 영역으로 하며 제1 훈련 세트와 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 한다.
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증한다.
F. 검증 통과율이 미리 설정된 한계값(예를 들어, 98%)보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행한다.
본 실시예는 대량의 클레임 서류 영상 샘플을 이용하여 훈련된 콘볼루션 신경망 모델을 이용하여 분할 영역을 분석하여 클레임 서류에서 OCR 문자 인식 엔진을 이용하여 정확하게 인식할 수 있는 제1분할영역과 OCR 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 정확하게 분석될 수 있어 후속적으로 제1분할영역과 제2분할영역에 대하여 상이한 인식 방식을 각각 이용하여 문자 인식을 정확하게 하여 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.
또한, 다른 실시예에 있어서, 상기 미리 결정된 인식 모델은 장단기기억(Long Short-Term Memory, 줄임말 LSTM)모델이고 상기 미리 결정된 인식 모델의 훈련 과정은 다음과 같다.
미리 설정된 개수(예를 들어, 10만)의 영역 샘플을 획득하고 이 영역 샘플은 이력 데이터에서 여러 클레임 서류에 대해 그의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 한 후의 분할 영역 샘플일 수 있다. 일 실시방식에 있어서, 통일적으로 분할 영역 샘플에서의 폰트는 검은색으로 설치되고, 배경은 백색으로 설치되어 문자 인식이 편리하게 된다. 각 분할 영역 샘플을 라벨링할 수 있고 예를 들어, 각 분할 영역 샘플의 명칭은 해당 분할 영역 샘플에 포함된 문자로 명명하여 라벨링한다.
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례(예를 들어, 8:2)에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 제1데이터 세트를 훈련 세트로 하고 제2데이터 세트를 테스트 세트로 하고, 그중, 제1데이터 세트의 샘플 개수 비례가 제2데이터 세트의 샘플 개수 비례보다 크거나 같다.
제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간(예를 들어, 30분이나 1000차 반복 마다)마다 모델을 제2데이터 세트를 이용하여 테스트하여 현재 훈련된 모델의 효과를 평가하도록 한다. 예를 들어, 테스트할 때 훈련된 모델을 이용하여 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수있고 훈련된 모델을 이용하여 분할 영역 샘플에 대한 문자 이식 결과과 해당 분할 영역 샘플의 라벨을 비교할 수 있어 훈련된 모델에 대한 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차를 계산할 수 있다. 구체적으로는, 오차를 계산할 때 편집거리를 계산 표준로 하며, 그 중, 편집거리(Edit Distance)는 또 Levenshtein 거리라고도 말하고, 2개의 문자열 사이에서 하나가 다른 하나로 전환될 때 필요한 최소 편집 동작 횟수를 뜻한다. 허가된 편집 동작은 하나의 문자를 다른 문자로 바꿈, 하나의 문자 삽입, 하나의 문자 삭제를 포함하고, 일반적으로, 편집거리가 작을수록 2개의 문자열의 유사도가 높다. 따라서, 편집거리를 계산 표준으로 하여 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차를 계산할 때 계산된 오차가 작을수록 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨의 유사도가 높고, 반대로 계산된 오차가 클수록 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨의 유사도가 낮다.
이 분할 영역 샘플의 라벨이 이 분할 영역 샘플의 명칭, 즉 이 분할 영역 샘플에 포함된 문자이기 때문에 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차는 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플에 포함된 문자 간의 오차이며, 훈련된 모델에 의해 인식된 문자와 정확한 문자 간의 오차가 반영될 수 있다. 매번의 훈련된 모델을 제2데이터 세트를 이용하여 테스트하는 오차를 기록하고 오차의 변화 추이를 분석하며 테스트 시 훈련된 모델이 분할 영역 샘플에 대한 문자 인식의 오차가 발산되는 것으로 분석되면 훈련 파라미터, activation 함수, LSTM 층수, 입출력의 가변차원 등을 조절하여 다시 훈련하고 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴한다. 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 것으로 분석되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 한다.
본 실시예는 OCR 문자 인식 엔진에 의해 인식될 수 없는 영역에 대하여, 훈련된 LSTM 모델을 이용하여 인식하며, LSTM 모델이 대량의 분할 영역 샘플에 의해 훈련되고 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 모델이기 때문에 LSTM 모델 자신의 장기기억 기능에 매칭되어 LSTM 모델이 분할 영역에서의 문자를 인식할 때 모델에 의해 기억된 문맥 정보와 같은 장기정보를 이에서의 문자를 더 정확하게 인식하여 클레임 서류에서의 문자에 대한 인식의 용하여 분할 영역정밀도를 더 향상시킨다.
본 발명은 클레임 서류의 문자 인식 서버를 개시한다.
도4를 참조하면 도4는 본 발명에 따른 클레임 서류의 문자 인식 서버의 제1실시예의 도면이다.
제1실시예에 있어서, 이 클레임 서류의 문자 인식 서버는 저장 장치(11), 프로세서(12), 통신 버스(13) 및 네트워크 인터페이스(14)를 포함한다. 그 중, 통신 버스(13)는 이들 모듈 간의 통신연결을 구현하기 위한 것이다.
저장 장치(11)는 메모리 및 적어도 한 종류의 판독 가능한 저장매체를 포함하고, 메모리는 클레임 서류의 문자 인식 서버의 실행을 위한 캐시를 제공하며, 판독 가능한 저장매체는 플래시 메모리, 하드 디스크, 멀티미디어 카드, 카드 타입 메모리 등과 같은 비휘발성 저장매체일 수 있다. 일부 실시예에 있어서, 상기 판독 가능한 저장매체는 상기 클레임 서류의 문자 인식 서버의 내부 저장 유닛일 수 있고, 예를 들어, 이 클레임 서류의 문자 인식 서버의 하드 디스크 또는 메모리일 수 있다. 다른 일부 실시예에 있어서, 상기 판독 가능한 저장매체는 상기 클레임 서류의 문자 인식 서버의 외부 저장 유닛일 수도 있고, 예를 들어, 상기 클레임 서류의 문자 인식 서버에 설치된 플러그인형 하드디스크, 스마트 미디어 카드(Smart Media Card, SMC), 시큐어 디지털(Secure Digital, SD) 카드, 플래시 카드(Flash Card)등과 같다.
본 실시예에 있어서, 상기 저장장치(11)의 판독 가능한 저장매체는 통상적으로 상기 클레임 서류의 문자 인식 서버에 설치된 응용 소프트웨어 및 각 종류의 데이트를 저장하며, 예를 들어, 클레임 서류의 문자 인식 프로그램 등과 같다. 상기 저장장치(11)는 이미 출력되거나 출력할 데이터를 일시적으로 저장할 수 있다.
일부 실시예에 있어서, 상기 프로세서(12)는 중앙 처리 장치(Central Processing Unit,CPU), 마이크로프로세서, 또는 기타 데이터 처리 칩일 수 있고 상기 저장장치(11)에 저장된 프로그램 코드 또는 처리 데이터를 실행한다.
네트워크 인터페이스(14)는 표준적 유선 네트워크 인터페이스, 무선 네트워크 인터페이스(예를 들어, WI-FI 인터페이스)를 포함할 수 있다.
도4는 모듈(11-14)만 가지는 클레임 서류의 문자 인식 서버를 도시하나 모든 도시된 모듈을 실시하는 것을 요구하지 않고 더 많거나 적은 모듈으로 대체하여 실시할 수 있다는 것을 이해하여야 한다.
선택적으로, 이 클레임 서류의 문자 인식 서버는 유저 인터페이스를 더 포함할 수 있고, 유저 인터페이스는 유선 인터페이스 또는 무선 인터페이스를 포함할 수 있다. 예를 들어, 키보드(Keyboard)와 같은 입력 유닛, 유선 또는 무선 머리 장착형 이어폰 포트, 외부 전원(또는 전지 충전기) 포트, 유선 또는 무선 데이트 포트, 메모리 카드 포트, 인식 모듈을 구비하는 장치에 연결된 포트, 오디오 입출력 (I/O) 포트, 비디오 (I/O) 포트, 이어폰 포트 등과 같다. 이 유저 인터페이스는 외부 장치로부터 입력(예를 들어, 데이트 정보, 전력 등)을 수신할 수 있고 수신한 입력을 단말기의 하나 또는 다수의 부품에 전송한다.
선택적으로, 이 클레임 서류의 문자 인식 서버는 디스플레이 장치를 더 포함할 수 있고, 디스플레이 장치는 LED 모니터, 액정 모니터, 터치 액정 모니터 및 OLED(Organic Light-Emitting Diode,유기 발광 다이오드)터치장치 등일 수 있다. 상기 디스플레이 장치는 상기 클레임 서류의 문자 인식 서버에서 처리된 정보를 디스플레이하고 가시화의 유저 인터페이스를 디스플레이한다.
도4에 도시된 클레임 서류의 문자 인식 서버의 실시예에 있어서, 저장 장치(11)에는 클레임 서류의 문자 인식 프로그램이 저장되며 프로세서(12)는 저장 장치(11)에 저장된 클레임 서류의 문자 인식 프로그램을 실행하여 다음과 같은 단계를 수행한다.
문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는 다음과 같은 단계를 포함하는 것이 바람직하다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 한다.
상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는 다음과 같은 단계를 포함한다.
미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 한다.
상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델인 것이 바람직하고, 상기 미리 결정된 분석 모델의 훈련 과정은 다음과 같다.
A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득한다.
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정한다.C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시킨다.
D. 각각 상기 제1 훈련 세트와 제2훈련 세트로부터 상기 제1 미리 설정 비례에 따라 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 한다.
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증한다.
F. 검증 통과율이 미리 설정된 한계값 보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행한다.
상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델인 것이 바람직하고 상기 미리 결정된 인식 모델의 훈련 과정은 다음과 같다.
미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링한다.
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 한다.
상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 한다.
훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련한다.
훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 한다.
상기 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역인 것이 바람직하고 상기 분할 영역은 프레임 라인을 포함하지 않은 영역이다.
본 발명에 따른 클레임 서류의 문자 인식 서버의 구체적인 실시방식은 상기 클레임 서류의 문자 인식 방법의 구체적인 실시방식과 유사해서 여기서 생략하기로 한다.
본 발명은 컴퓨터 판독 가능한 저장매체를 더 개시한다.
상기 컴퓨터 판독 가능한 저장매체에는 클레임 서류의 문자 인식 프로그램이 저장되고 이 클레임 서류의 문자 인식 프로그램은 적어도 하나의 프로세서에 의해 실행될 수 있어 다음과 같은 단계를 수행한다.
문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.
상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는 다음과 같은 단계를 포함하는 것이 바람직하다.
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 한다.
상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는 다음과 같은 단계를 포함한다.
미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 한다.
상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델인 것이 바람직하고, 상기 미리 결정된 분석 모델의 훈련 과정은 다음과 같다.
A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득한다.
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정한다.
C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시킨다.
D. 각각 상기 제1 훈련 세트와 제2훈련 세트로부터 상기 제1 미리 설정 비례에 따라 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 한다.
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증한다.
F. 검증 통과율이 미리 설정된 한계값 보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행한다.
상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델인 것이 바람직하고 상기 미리 결정된 인식 모델의 훈련 과정은 다음과 같다.
미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링한다.
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 한다.
상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 한다.
훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련한다.
훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 한다.
상기 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역인 것이 바람직하고 상기 분할 영역은 프레임 라인을 포함하지 않은 영역이다.
본 발명에 따른 컴퓨터 판독 가능한 저장매체의 구체적인 실시방식은 상기 클레임 서류의 문자 인식 방법의 구체적인 실시방식과 유사해서 여기서 생략하기로 한다.
본 명세서에 있어서, 용어 "포함하다", "구성하다" 또는 이의 임의 기타 변형은 비 배타성의 포함을 뜻하여 일련의 요소를 포함하는 과정, 방법, 물품 또는 장치는 그런 요소를 포함할 뿐만 아니라 명확하게 열거하지 않은 기타 요소도 포함하거나 이런 과정, 방법, 물품 또는 장치가 고유한 요소를 포함한다. 더 많은 한정이 없는 한 문구 "하나의 ?? 포함한다"에 의해 한정된 요소는 이 요소의 과정, 방법, 물품 또는 장치에는 다른 동일한 요소가 존재한다는 것을 배제하지 않다.
본 기술분야의 당업자에게 있어서 상기와 같은 실시방식에 대한 설명을 통해 상기 실시예 방법이 소프트웨어와 필요하고 통용한 하드웨어 플랫폼으로 구현될 수 있으며 몰론 하드웨어를 통해 구현될 수 있지만 대부분의 경우에서 전자가 바람직한 실시방식임은 자명한 것이다. 이런 이해에 기초하여 본 발명의 기술방안 본질적으로 또는 종래 기술에 공헌할 부분은 소프트웨어 상품으로 구현될 수 있고 이 컴퓨터 소프트웨어 상품은 하나의 저장매체(예를 들어, ROM/RAM, 자기 디스크, 광 디스크)에 저장되고 여러 명령을 포함하여 하나의 단말기장치(휴대폰, 컴퓨터, 서버, 에어컨, 네트워크 장비 등)를 통해 본 발명에 따른 각각의 실시예의 방법을 수행한다.
상기와 같은 실시예는 본 발명의 바람직한 실시예로서 본 발명에 대해 한정하고자 하는 것이 아니다. 상기와 같은 본 발명에 따른 실시예의 순번은 설명하기 위한 것일 뿐 실시예의 우열을 가리기 위한 것이 아니다. 또한, 흐름도에서 논리 순서를 나타내지만 어떤 경우에서 여기의 순서와 다르게 상기 도시되거나 설명된 단계를 수행한다.
본 영역의 기술자들은 본 발명의 범위와 실질을 벗지 않고 여러 가지의 변형방안으로 본 발명을 구현할 수 있으며, 예를 들어, 한 실시예의 특징으로서 다른 실시예에 적용되어 또 다른 실시예를 얻을 수 있다. 본 발명의 기술사상에서 임의 수정, 등가치환, 개진은 모두 본 발명의 특허보호범위내에 포함된다.

Claims (20)

  1. 서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
  2. 제1항에 있어서,
    상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하는 단계를 포함하고,
    상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는,
    미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 단계를 더 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
  3. 제2항에 있어서,
    상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
    A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
    B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
    C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
    D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
    E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
    F. 검증 통과율이 미리 설정된 한계값 보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식방법.
  4. 제2항 또는 제3항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
    미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
    미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
    상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
    훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
    훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
  5. 제1항에 있어서,
    상기 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임 라인을 포함하지 않은 영역인 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
  6. 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 분할 모듈과,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 인식모듈을 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
  7. 제6항에 있어서,
    상기 인식모듈은,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하며,
    미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
  8. 제7항에 있어서,
    상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
    A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
    B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
    C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
    D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
    E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
    F. 검증 통과율이 미리 설정된 한계값 보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
  9. 제7항 또는 제8항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
    미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
    미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
    상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
    훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
    훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
  10. 제6항에 있어서,
    상기 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임 라인을 포함하지 않은 영역인 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
  11. 저장장치 및 프로세서를 포함하고, 상기 저장장치에 클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 이 프로세서에 의해 실행되어,
    서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 수행하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
  12. 제11항에 있어서,
    상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하는 단계를 포함하고,
    상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는,
    미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 단계를 더 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
  13. 제12항에 있어서,
    상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
    A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
    B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
    C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
    D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
    E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
    F. 검증 통과율이 미리 설정된 한계값보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
  14. 제12항 또는 제13항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
    미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
    미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
    상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
    훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
    훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
  15. 제11항에 있어서,
    상기 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임 라인을 포함하지 않은 영역인 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
  16. 클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 적어도 하나의 프로세서에 의해 실행되어,
    서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  17. 제16항에 있어서,
    상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는,
    미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광 문자 인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하는 단계를 포함하고,
    상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는,
    미리 결정된 광 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  18. 제17항에 있어서,
    상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
    A.미리 결정된 클레임 서류의 프레임 포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임 포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
    B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 단계와각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
    C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
    D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
    E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
    F. 검증 통과율이 미리 설정된 한계값보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  19. 제17항 또는 제18항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
    미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
    미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
    상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
    훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
    훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
  20. 제16항에 있어서,
    상기 분할 영역은 이 클레임 서류 프레임 포맷의 프레임 라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임 라인을 포함하지 않은 영역인 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
KR1020187023693A 2017-04-11 2017-06-30 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체 KR102171220B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710233613.3A CN107220648B (zh) 2017-04-11 2017-04-11 理赔单据的字符识别方法及服务器
CN2017102336133 2017-04-11
PCT/CN2017/091363 WO2018188199A1 (zh) 2017-04-11 2017-06-30 理赔单据的字符识别方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
KR20190026641A true KR20190026641A (ko) 2019-03-13
KR102171220B1 KR102171220B1 (ko) 2020-10-29

Family

ID=59927567

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187023693A KR102171220B1 (ko) 2017-04-11 2017-06-30 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체

Country Status (9)

Country Link
US (1) US10650231B2 (ko)
EP (1) EP3432197B1 (ko)
JP (1) JP6710483B2 (ko)
KR (1) KR102171220B1 (ko)
CN (1) CN107220648B (ko)
AU (1) AU2017408799B2 (ko)
SG (1) SG11201900263SA (ko)
TW (1) TWI621077B (ko)
WO (1) WO2018188199A1 (ko)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766809B (zh) * 2017-10-09 2020-05-19 平安科技(深圳)有限公司 电子装置、票据信息识别方法和计算机可读存储介质
CN107798299B (zh) * 2017-10-09 2020-02-07 平安科技(深圳)有限公司 票据信息识别方法、电子装置及可读存储介质
CN108319641A (zh) * 2017-12-21 2018-07-24 无锡雅座在线科技股份有限公司 菜品信息录入方法及装置
CN108198591A (zh) * 2017-12-28 2018-06-22 泰康保险集团股份有限公司 用于远程审核单据的方法与装置
CN110135225B (zh) * 2018-02-09 2021-04-09 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN108595519A (zh) * 2018-03-26 2018-09-28 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN110321760A (zh) * 2018-03-29 2019-10-11 北京和缓医疗科技有限公司 一种医疗单据识别方法和装置
CN108564035B (zh) 2018-04-13 2020-09-25 杭州睿琪软件有限公司 识别单据上记载的信息的方法及系统
EP3811292A4 (en) * 2018-06-21 2022-04-13 Servicenow Canada Inc. DATA EXTRACTION FROM SHORT BUSINESS DOCUMENTS
CN109241857A (zh) * 2018-08-13 2019-01-18 杭州睿琪软件有限公司 一种单据信息的识别方法及系统
CN109190594A (zh) * 2018-09-21 2019-01-11 广东蔚海数问大数据科技有限公司 光学字符识别系统及信息提取方法
CN110569700B (zh) * 2018-09-26 2020-11-03 创新先进技术有限公司 优化损伤识别结果的方法及装置
CN109492549A (zh) * 2018-10-24 2019-03-19 杭州睿琪软件有限公司 一种训练样本集处理、模型训练方法及系统
KR102150815B1 (ko) * 2018-11-02 2020-09-02 알리바바 그룹 홀딩 리미티드 다수의 시스템 지시자의 모니터링
CN109344838B (zh) * 2018-11-02 2023-11-24 长江大学 发票信息自动快速识别方法、系统以及装置
TWI684950B (zh) * 2018-12-12 2020-02-11 全友電腦股份有限公司 物種數據解析方法、系統及電腦程式產品
TWI703508B (zh) * 2018-12-19 2020-09-01 洽吧智能股份有限公司 字元影像識別方法與系統
CN109784341A (zh) * 2018-12-25 2019-05-21 华南理工大学 一种基于lstm神经网络的医疗单据识别方法
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
CN109903172A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 理赔信息提取方法和装置、电子设备
CN110084704A (zh) * 2019-03-15 2019-08-02 北京水滴互联科技有限公司 一种互助保障服务器、系统及互助保障方法
SG10201904825XA (en) 2019-05-28 2019-10-30 Alibaba Group Holding Ltd Automatic optical character recognition (ocr) correction
CN110610175A (zh) * 2019-08-06 2019-12-24 深圳市华付信息技术有限公司 一种ocr数据误标注清洗方法
US11481605B2 (en) 2019-10-25 2022-10-25 Servicenow Canada Inc. 2D document extractor
CN111291742B (zh) * 2020-02-10 2023-08-04 北京百度网讯科技有限公司 对象识别方法和装置、电子设备、存储介质
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质
US11972489B1 (en) 2020-04-24 2024-04-30 State Farm Mutual Automobile Insurance Company Claims process assistance using models
CN111259873B (zh) * 2020-04-26 2021-02-26 江苏联著实业股份有限公司 一种表格数据提取方法及装置
CN112686262A (zh) * 2020-12-28 2021-04-20 广州博士信息技术研究院有限公司 一种基于图像识别技术的手册提取结构化数据并快速归档的方法
CN115981798B (zh) * 2023-03-21 2023-08-01 北京探境科技有限公司 文件解析方法、装置、计算机设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100044668A (ko) * 2008-10-22 2010-04-30 엔에이치엔(주) 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2016071898A (ja) * 2014-09-30 2016-05-09 メディア株式会社 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04304586A (ja) 1991-04-01 1992-10-27 Mitsubishi Electric Corp 文字認識装置
JP2003256772A (ja) * 2002-03-06 2003-09-12 Ricoh Co Ltd 文字認識装置及び記録媒体
TW200802137A (en) 2006-06-16 2008-01-01 Univ Nat Chiao Tung Serial-type license plate recognition system
TWI355853B (en) 2008-04-25 2012-01-01 Hon Hai Prec Ind Co Ltd Image capturing device and image arranging method
JP4856235B2 (ja) 2009-12-15 2012-01-18 富士通株式会社 帳票認識方法及び帳票認識装置
US8625113B2 (en) * 2010-09-24 2014-01-07 Ricoh Company Ltd System and method for distributed optical character recognition processing
CN102567764B (zh) * 2012-01-13 2016-03-02 中国工商银行股份有限公司 一种提高电子影像识别效率的票据凭证及系统
JP5753828B2 (ja) * 2012-09-27 2015-07-22 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像処理プログラム
CN103258198B (zh) * 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
US9800895B2 (en) 2013-06-27 2017-10-24 Qualcomm Incorporated Depth oriented inter-view motion vector prediction
US9659213B2 (en) * 2015-07-03 2017-05-23 Cognizant Technology Solutions India Pvt. Ltd. System and method for efficient recognition of handwritten characters in documents
CN105654072B (zh) * 2016-03-24 2019-03-01 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
WO2018071403A1 (en) * 2016-10-10 2018-04-19 Insurance Services Office, Inc. Systems and methods for optical charater recognition for low-resolution ducuments
CN106557747B (zh) * 2016-11-15 2018-06-22 平安科技(深圳)有限公司 识别保险单号码的方法及装置
JP6401806B2 (ja) * 2017-02-14 2018-10-10 株式会社Pfu 日付識別装置、日付識別方法及び日付識別プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100044668A (ko) * 2008-10-22 2010-04-30 엔에이치엔(주) 언어모델과 ocr을 이용하여 문서에 포함된 문자열을 인식하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
JP2016071898A (ja) * 2014-09-30 2016-05-09 メディア株式会社 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体

Also Published As

Publication number Publication date
SG11201900263SA (en) 2019-02-27
JP6710483B2 (ja) 2020-06-17
TW201837788A (zh) 2018-10-16
CN107220648B (zh) 2018-06-22
CN107220648A (zh) 2017-09-29
TWI621077B (zh) 2018-04-11
AU2017408799A1 (en) 2018-11-08
US20190147239A1 (en) 2019-05-16
AU2017408799B2 (en) 2019-10-10
US10650231B2 (en) 2020-05-12
EP3432197A1 (en) 2019-01-23
EP3432197A4 (en) 2019-06-19
JP2019520615A (ja) 2019-07-18
KR102171220B1 (ko) 2020-10-29
WO2018188199A1 (zh) 2018-10-18
EP3432197B1 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
KR20190026641A (ko) 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
US10049096B2 (en) System and method of template creation for a data extraction tool
US9164874B1 (en) Testing conversion and rendering of digital content
CN110704633A (zh) 命名实体识别方法、装置、计算机设备及存储介质
WO2021174812A1 (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN112181835B (zh) 自动化测试方法、装置、计算机设备及存储介质
CN111325031B (zh) 简历解析方法及装置
CN116245074A (zh) 芯片验证方法、设备及存储介质
WO2021151270A1 (zh) 图像结构化数据提取方法、装置、设备及存储介质
CN112363814A (zh) 任务调度方法、装置、计算机设备及存储介质
CN108664610B (zh) 用于处理数据的方法和装置
WO2022105120A1 (zh) 图片文字检测方法、装置、计算机设备及存储介质
CN114157439B (zh) 漏洞扫描方法、计算设备及记录介质
CN114385694A (zh) 一种数据加工处理方法、装置、计算机设备及存储介质
CN110532186B (zh) 利用验证码进行测试的方法、装置、电子设备和存储介质
CN110083807B (zh) 合同的修改影响自动预测方法、装置、介质及电子设备
CN104751033A (zh) 一种基于音视频文件的用户行为认证方法和装置
CN110879868A (zh) 顾问方案生成方法、装置、系统、电子设备及介质
US11763589B1 (en) Detection of blanks in documents
CN112232320B (zh) 印刷品文字的校对方法及相关设备
CN114328242A (zh) 表单的测试方法、装置、电子设备和介质
CN114528215A (zh) 交互页面的测试方法和元素模板的生成方法、装置
CN116665646A (zh) 方言数据自动筛选识别方法、装置、设备及其存储介质
CN113934708A (zh) 校验标注数据的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant