KR20190026641A

KR20190026641A - 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체

Info

Publication number: KR20190026641A
Application number: KR1020187023693A
Authority: KR
Inventors: 이 치유
Original assignee: 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date: 2017-04-11
Filing date: 2017-06-30
Publication date: 2019-03-13
Also published as: SG11201900263SA; JP6710483B2; TW201837788A; CN107220648B; CN107220648A; TWI621077B; AU2017408799A1; US20190147239A1; AU2017408799B2; US10650231B2; EP3432197A1; EP3432197A4; JP2019520615A; KR102171220B1; WO2018188199A1; EP3432197B1

Abstract

본 발명은 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체를 개시하고, 이 방법은 서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와, 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 포함한다. 본 발명은 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하여, 문자 인식을 하기 전에 먼저 클레임 서류의 프레임 포맷의 프레임　라인　배열에 따라 영역 분할을 하고 각 분할 영역에 대하여 문자 인식을 하면 전체의 클레임 서류 영상의 문자를 통일적으로 인식할 때 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향 및 방행을 방지하여 효율적으로 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.

Description

클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체

본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히 클레임 서류의 문자 인식 방법, 장치, 서버 및 컴퓨터 판독 가능한 저장매체에 관한 것이다.

대중의 보험 의식이 강해짐에 따라 보험을 구매하는 고객층이 대폭 증가하고 보험 회사가 처리하여야 할 고객 클레임 신청이 많아지고 보험 회사 작업 인원이 입력하여야 할 클레임 서류 영상도 많아져서, 서류를 입력하는 작업인원의 일손이 부족하는 동시에 서류를 입력할 때 자주 실수를 저지른다. 서류 입력의 실수를 줄이고 서류 입력의 효율을 향상시키기 위해 현재, 일부 보험회사가 서류 입력 작업 과정에서 OCR (Optical Character Recognition, 광 문자 인식)기술을 도입하여 클레임 서류 영상의 문자을 자동적으로 인식하여 해당 입력 란에 기입한다.

하지만, 기존의 OCR 기술을 이용하여 클레임 서류 영상의 문자을 인식하는 방안은 자신의 인식 엔진만 이용하여 전체의 클레임 서류 영상의 문자에 대해 통일적으로 인식하며 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하지 않고 서류에서의 프레임 라인이 문자 인식에 대한 영향을 고려하지 않아서 기존의 인식 방안의 인식 정밀도가 높지 않고 검증하는데 대량의 인력과 물력을 필요한다.

본 발명의 주된 목적은 클레임 서류의 인식 정밀도를 향상시키기 위해, 클레임 서류의 문자 인식 방법, 장치, 서버 및 컴퓨터 판독 가능한 저장매체를 제공하고자 한다.

상기 목적을 달성하기 위해, 본 발명은 첫번째 방면에 있어서 클레임 서류의 문자 인식 방법을 개시하고 상기 방법은 다음과 같은 단계를 포함한다.

서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.

미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.

본 발명은 두번째 방면에 있어서 클레임 서류의 문자 인식 장치를 개시하고 상기 문자 인식 장치는 다음과 같은 모듈을 포함한다.

분할 모듈, 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.

인식모듈, 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.

본 발명은 셋번째 방면에 있어서, 클레임 서류의 문자 인식 서버를 개시하고 상기 클레임 서류의 문자 인식 서버는 저장장치 및 프로세서를 포함하고, 상기 저장장치에 클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 이 프로세서에 의해 실행되어 다음과 같은 단계를 구현할 수 있다.

본 발명은 넷번째 방면에 있어서 컴퓨터 판독 가능한 저장매체를 개시하고, 이 컴퓨터 판독 가능한 저장매체에는 클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 적어도 하나의 프로세서에 의해 실행되어 다음과 같은 단계를 구현할 수 있다.

기존의 기술과 비교해보면, 본 발명은 클레임 서류의 문자 인식 방법, 장치, 서버 및 컴퓨터 판독 가능한 저장매체를 개시하고, 클레임 서류 영상에 대한 문자 인식을 하기 전에 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 이에 대해 영역 분할을 하며 미리 결정된 인식 규칙을 이용하여 이 클레임 서류의 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다. 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하여, 문자 인식을 하기 전에 먼저 클레임 서류의 프레임 포맷의 프레임　라인　배열에 따라 영역 분할을 하고 각 분할 영역에 대하여 문자 인식을 하면 전체의 클레임 서류 영상의 문자를 통일적으로 인식할 때 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향 및 방행을 방지하여 효율적으로 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.

도1은 본 발명에 따른 클레임 서류의 문자 인식 방법의 제1실시예의 흐름도이다.
도2는 본 발명에 따른 클레임 서류의 문자 인식 방법의 제2실시예의 흐름도이다.
도3은 본 발명에 따른 클레임 서류의 문자 인식 장치의 제1실시예의 기능 모듈의 도면이다.
도4는 본 발명에 따른 클레임 서류의 문자 인식 서버의 제1실시예의 도면이다.
본 발명의 목적 실현, 기능 특징 및 장점에 대해 실시예를 통해 도면을 참조하여 설명하기로 한다.

본 발명이 해결하고자 하는 기술문제, 기술방안, 유익 효과를 더 명확하고 뚜렷하게 되기 위해, 하기와 같은 도면과 실시예를 통해 본 발명에 대해 진일보 상세하게 설명하기로 한다. 여기서에서 설명하는 구체적인 실시예는 본 발명을 예시적으로 설명하기 위한 것일 뿐 본 발명을 한정하기 위한 것이 아니다.

본 발명은 클레임 서류의 문자 인식 방법을 개시한다.

도1을 참조하면, 도1은 본 발명에 따른 클레임 서류의 문자 인식 방법의 제1실시예의 흐름도이다.

제1실시예에 있어서, 이 클레임 서류의 문자 인식 방법은 다음과 같은 단계를 포함한다.

단계(S10), 서버는 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.

본 실시예에 있어서, 서버는 사용자가 보낸 문자인식할 클레임 서류의 영상을 포함하는 문자인식 요청을 수신할 수 있고, 예를 들어, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기로 보내는 문자인식 요청을 수신하고, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에 미리 설치된 클라이언트에서 보내는 문자인식 요청을 수신하거나 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에서의 브라우저 시스템에서 보내는 문자인식 요청을 수신한다.

서버가 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하고 레임 서류의 영상에 그의 프레임　포맷에 따라 가로나 세로 프레임 라인이 배열되어 각 항목의 입력 란을 구성하여 사용자가 해당 정보를 기입할 수 있다. 본 실시예는 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다. 예를 들어, 일 실시방식에 있어서, 일반적으로 상이한 유형의 보험과 대응되는 서류 포맷　템플릿이 상이하기 때문에 사용자가 미리 업로드한 서류 유형(상이한 보험은 상이한 서류 포맷이 있을 수 있다)에 따라 해당 서류 템플릿을 획득하고 템플릿의 포맷에 따라 분할한다. 예를 들어, 수신한 문자인식할 클레임 서류 영상의 서류 유형에 따라 이 클레임 서류 영상과 대응되는 서류 템플릿을 찾고 그과 대응되는 서류 템플릿에 따라 영역 분할을 한다. 이 분할 영역은 이 클레임 서류 프레임　포맷의 프레임　라인에 의해 구성된 최소단위의 영역이고 이 분할 영역은 프레임　라인을 포함하지 않은 영역으로, 후속으로 각 분할 영역에 대한 문자인식을 할 때 프레임　라인이 인식 정밀도에 대한 방해 및 영향을 방지하도록 하며, 이 분할 영역은 excel 테이블의 각 체크와 유사하고, excel 테이블의 각 체크는 최소영역에서 프레임　라인이 포함되지 않은 영역이다.

단계(S20), 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.

이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 클레임 서류 영상에 대해 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한 후, 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자, 즉, 클레임 서류 영상에서의 문자를 인식하도록 한다. 예를 들어, 미리 결정된 분석 모델을 이용하여 각 분할 영역에 적용된 인식 모델 또는 인식 방식을 분석하고 분석된 결과에 따라 각 분할 영역에 대하여 각 분할 영역에 적합한 자신 인식 모델이나 인식 방식을 이용하여 문자 인식을 하여 문자 인식의 정확도를 향상시키도록 한다. 예를 들어, 상이한 분할 영역에 대하여, 문자 인식의 방식이 광 문자 인식 엔진을 이용하여 인식하는 방식인 것으로 분석될 수도 있고, 다른 인식 엔진이나 훈련된 인식 모델을 이용하여 인식할 수도 있으며 여기서 한정하지 않는다. 각 분할 영역에서의 문자가 인식되고 각 분할 영역에서의 문자를 자동적으로 이 클레임 서류 영상과 대응되는 전자 클레임 서류의 각 항목의 입력 란에 기입, 입력할 수도 있다.

본 실시예는 클레임 서류 영상에 대한 문자 인식을 하기 전에 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 이에 대해 영역 분할을 하며 미리 결정된 인식 규칙을 이용하여 이 클레임 서류의 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다. 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향을 고려하여, 문자 인식을 하기 전에 먼저 클레임 서류의 프레임 포맷의 프레임　라인　배열에 따라 영역 분할을 하고 각 분할 영역에 대하여 문자 인식을 하면 전체의 클레임 서류 영상의 문자를 통일적으로 인식할 때 클레임 서류의 프레임 포맷이 인식 정밀도에 대한 영향 및 방행을 방지하여 효율적으로 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.

도2에 도시된 바와 같이, 본 발명의 제2실시예는 클레임 서류의 문자 인식 방법을 개시하고 상기 실시예에 기초하여 상기 단계(S20)는 다음과 같은 단계를 포함한다.

단계(S201), 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광　문자　인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광　문자　인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 한다.

단계(S202), 미리 결정된 광　문자　인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 한다.

본 실시예는 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한 후, 회득된 분할 영역에 대한 인식을 하기 전에 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 깊이 인식할 필요가 없는 제1분할영역과 깊이 인식할 필요가 있는 제2분할영역으로 분석되도록 한다. 예를 들어, 현재 자신의 인식 엔진이 OCR 문자 인식 엔진인 경우, OCR 문자 인식 엔진에 의해 정확 인식되거나 인식률이 높은 영역을 깊이 인식할 필요가 없는 영역으로 할 수 있고, 즉, 현재 자신의 OCR 문자 인식 엔진을 이용하여 이 영역의 문자을 정확하게 인식할 수 있고 단른 인식 방식이 필요없다. OCR 문자 인식 엔진에 의해 정확 인식되지 않거나 인식률이 낮은 영역을 깊이 인식할 필요가 있는 영역으로 하고, 즉, 현재 자신의 OCR 문자 인식 엔진을 이용하여 이 영역의 문자을 정확하게 인식할 수 없고 단른 인식 방식, 즉, 훈련된 인식모델에 의해 문자 인식을 한다.

이 클레임 서류 영상이OCR 문자 인식 엔진을 이용하여 정확하게 인식할 수 있는 제1분할영역과 OCR 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석된 후 분석된 제1분할영역과 제2분할영역에 대하여 상이한 인식 방식을 이용하여 문자 인식을 한다. 미리 결정된 OCR 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 정확하게 인식하도록 한다. 미리 경정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 정확하게 인식하도록 하며, 이 미리 결정된 인식 모델은 대량의 분할 영역 샘플에 대한 훈련된 인식 모델일 수도 있고 자신의 OCR 문자 인식 엔진의 인식 방식보다 복잡하고 인식 효과가 좋은 인식 엔진일 수도 있고, 여기서 한정하지 않는다.

또한, 다른 실시예에 있어서, 상기 미리 결정된 분석 모델은 콘볼루션 신경망(Convolutional Neural Network，줄임말CNN)모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은 다음과 같다.

A．미리 결정된 클레임 서류의 프레임　포맷에 대하여, 미리 설정된 개수(예를 들어, 50만개)의 이 클레임 서류의 프레임　포맷에 기초한 클레임 서류 영상 샘플을 획득한다.

B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광　문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정한다.

C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시킨다.

D. 각각 제1 훈련 세트와 제2훈련 세트로부터 제1 미리 설정 비례(예를 들어, 80%)에 따라 분할 영역을 추출하여 훈련할 분할 영역으로 하며 제1 훈련 세트와 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 한다.

E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증한다.

F. 검증 통과율이 미리 설정된 한계값(예를 들어, 98%)보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행한다.

본 실시예는 대량의 클레임 서류 영상 샘플을 이용하여 훈련된 콘볼루션 신경망 모델을 이용하여 분할 영역을 분석하여 클레임 서류에서 OCR 문자 인식 엔진을 이용하여 정확하게 인식할 수 있는 제1분할영역과 OCR 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 정확하게 분석될 수 있어 후속적으로 제1분할영역과 제2분할영역에 대하여 상이한 인식 방식을 각각 이용하여 문자 인식을 정확하게 하여 클레임 서류에서의 문자인식의 인식 정밀도를 향상시킬 수 있다.

또한, 다른 실시예에 있어서, 상기 미리 결정된 인식 모델은 장단기기억(Long Short-Term Memory, 줄임말 LSTM)모델이고 상기 미리 결정된 인식 모델의 훈련 과정은 다음과 같다.

미리 설정된 개수(예를 들어, 10만)의 영역 샘플을 획득하고 이 영역 샘플은 이력 데이터에서 여러 클레임 서류에 대해 그의 프레임　포맷의 프레임　라인　배열에 따라 영역 분할을 한 후의 분할 영역 샘플일 수 있다. 일 실시방식에 있어서, 통일적으로 분할 영역 샘플에서의 폰트는 검은색으로 설치되고, 배경은 백색으로 설치되어 문자 인식이 편리하게 된다. 각 분할 영역 샘플을 라벨링할 수 있고 예를 들어, 각 분할 영역 샘플의 명칭은 해당 분할 영역 샘플에 포함된 문자로 명명하여 라벨링한다.

미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례(예를 들어, 8:2)에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 제1데이터 세트를 훈련 세트로 하고 제2데이터 세트를 테스트 세트로 하고, 그중, 제1데이터 세트의 샘플 개수 비례가 제2데이터 세트의 샘플 개수 비례보다 크거나 같다.

제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간(예를 들어, 30분이나 1000차 반복 마다)마다 모델을 제2데이터 세트를 이용하여 테스트하여 현재 훈련된 모델의 효과를 평가하도록 한다. 예를 들어, 테스트할 때 훈련된 모델을 이용하여 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수있고 훈련된 모델을 이용하여 분할 영역 샘플에 대한 문자 이식 결과과 해당 분할 영역 샘플의 라벨을 비교할 수 있어 훈련된 모델에 대한 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차를 계산할 수 있다. 구체적으로는, 오차를 계산할 때 편집거리를 계산 표준로 하며, 그 중, 편집거리（Edit Distance）는 또 Levenshtein 거리라고도 말하고, 2개의 문자열 사이에서 하나가 다른 하나로 전환될 때 필요한 최소 편집 동작 횟수를 뜻한다. 허가된 편집 동작은 하나의 문자를 다른 문자로 바꿈, 하나의 문자 삽입, 하나의 문자 삭제를 포함하고, 일반적으로, 편집거리가 작을수록 2개의 문자열의 유사도가 높다. 따라서, 편집거리를 계산 표준으로 하여 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차를 계산할 때 계산된 오차가 작을수록 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨의 유사도가 높고, 반대로 계산된 오차가 클수록 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨의 유사도가 낮다.

이 분할 영역 샘플의 라벨이 이 분할 영역 샘플의 명칭, 즉 이 분할 영역 샘플에 포함된 문자이기 때문에 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차는 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플에 포함된문자 간의 오차이며, 훈련된 모델에 의해 인식된 문자와 정확한 문자 간의 오차가 반영될 수 있다. 매번의 훈련된 모델을 제2데이터 세트를 이용하여 테스트하는 오차를 기록하고 오차의 변화 추이를 분석하며 테스트 시 훈련된 모델이 분할 영역 샘플에 대한 문자 인식의 오차가 발산되는 것으로 분석되면 훈련 파라미터, activation 함수, LSTM 층수, 입출력의 가변차원 등을 조절하여 다시 훈련하고 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴한다. 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 것으로 분석되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 한다.

본 실시예는 OCR 문자 인식 엔진에 의해 인식될 수 없는 영역에 대하여, 훈련된 LSTM 모델을 이용하여 인식하며, LSTM 모델이 대량의 분할 영역 샘플에 의해 훈련되고 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 모델이기 때문에 LSTM 모델 자신의 장기기억 기능에 매칭되어 LSTM 모델이 분할 영역에서의 문자를 인식할 때 모델에 의해 기억된 문맥 정보와 같은 장기정보를 이용하여 분할 영역에서의 문자를 더 정확하게 인식하여 클레임 서류에서의 문자에 대한 인식의 정밀도를 더 향상시킨다.

본 발명은 클레임 서류의 문자 인식 장치를 개시한다.

도3을 참조하면 도3은 본 발명에 따른 클레임 서류의 문자 인식 장치의 제1실시예의 기능 모듈의 도면이다.

제1실시예에 있어서, 이 클레임 서류의 문자 인식 장치는 다음과 같은 모듈을 포함한다.

분할 모듈(01), 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.

본 실시예에 있어서, 서버는 사용자가 보낸 문자인식할 클레임 서류의 영상을 포함하는 문자인식 요청을 수신할 수 있고, 예를 들어, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기로 보내는 문자인식 요청을 수신하고, 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에 미리 설치된 클라이언트에서 보내는 문자인식 요청을 수신거나 사용자가 핸드폰, 태블릿 PC, 셀프 서비스 단말장치 등 단말기에서의 브라우저 시스템에서 보내는 문자인식 요청을 수신한다.

서버는 문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하고 레임 서류의 영상에 그의 프레임　포맷에 따라 가로나 세로 프레임 라인이 배열되어 각 항목의 입력 란을 구성하여 사용자가 해당 정보를 기입할 수 있다. 본 실시예는 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다. 예를 들어, 일 실시방식에 있어서, 일반적으로 상이한 유형의 보험과 대응되는 서류 포맷　템플릿이 상이하기 때문에 사용자가 미리 업로드한 서류 유형(상이한 보험은 상이한 서류 포맷이 있을 수 있다)에 따라 해당 서류 템플릿을 획득하고 템플릿의 포맷에 따라 분할한다. 예를 들어, 수신한 문자인식할 클레임 서류 영상의 서류 유형에 따라 이 클레임 서류 영상과 대응되는 서류 템플릿을 찾고 그과 대응되는 서류 템플릿에 따라 영역 분할을 한다. 이 분할 영역은 이 클레임 서류 프레임　포맷의 프레임　라인에 의해 구성된 최소단위의 영역이고 이 분할 영역은 프레임　라인을 포함하지 않은 영역으로, 후속으로 각 분할 영역에 대한 문자인식을 할 때 프레임　라인이 인식 정밀도에 대한 방해 및 영향을 방지하도록 하며, 이 분할 영역은 excel 테이블의 각 체크와 유사하고, excel 테이블의 각 체크는 최소영역에서 프레임　라인이 포함되지 않은 영역이다.

인식모듈(02), 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 한다.

또한, 상기 실시예에 기초하여 상기 인식모듈(02)은 다음과 같은 용도를 포함한다.

미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광　문자　인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광　문자　인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 한다.

미리 결정된 광　문자　인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 한다.

이 클레임 서류 영상이 OCR 문자 인식 엔진을 이용하여 정확하게 인식할 수 있는 제1분할영역과 OCR 문자 인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석된 후 분석된 제1분할영역과 제2분할영역에 대하여 상이한 인식 방식을 이용하여 문자 인식을 한다. 미리 결정된 OCR 문자 인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 정확하게 인식하도록 한다. 미리 경정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 정확하게 인식하도록 하며, 이 미리 결정된 인식 모델은 대량의 분할 영역 샘플에 대한 훈련된 인식 모델일 수도 있고 자신의 OCR 문자 인식 엔진의 인식 방식보다 복잡하고 인식 효과가 좋은 인식 엔진일 수도 있고, 여기서 한정하지 않는다.

이 분할 영역 샘플의 라벨이 이 분할 영역 샘플의 명칭, 즉 이 분할 영역 샘플에 포함된 문자이기 때문에 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플의 라벨 간의 오차는 훈련된 모델의 문자 인식 결과과 해당 분할 영역 샘플에 포함된 문자 간의 오차이며, 훈련된 모델에 의해 인식된 문자와 정확한 문자 간의 오차가 반영될 수 있다. 매번의 훈련된 모델을 제2데이터 세트를 이용하여 테스트하는 오차를 기록하고 오차의 변화 추이를 분석하며 테스트 시 훈련된 모델이 분할 영역 샘플에 대한 문자 인식의 오차가 발산되는 것으로 분석되면 훈련 파라미터, activation 함수, LSTM 층수, 입출력의 가변차원 등을 조절하여 다시 훈련하고 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴한다. 테스트 시의 훈련 모델이 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 것으로 분석되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 한다.

본 실시예는 OCR 문자 인식 엔진에 의해 인식될 수 없는 영역에 대하여, 훈련된 LSTM 모델을 이용하여 인식하며, LSTM 모델이 대량의 분할 영역 샘플에 의해 훈련되고 분할 영역 샘플에 대한 문자 인식의 오차를 수렴하는 모델이기 때문에 LSTM 모델 자신의 장기기억 기능에 매칭되어 LSTM 모델이 분할 영역에서의 문자를 인식할 때 모델에 의해 기억된 문맥 정보와 같은 장기정보를 이에서의 문자를 더 정확하게 인식하여 클레임 서류에서의 문자에 대한 인식의 용하여 분할 영역정밀도를 더 향상시킨다.

본 발명은 클레임 서류의 문자 인식 서버를 개시한다.

도4를 참조하면 도4는 본 발명에 따른 클레임 서류의 문자 인식 서버의 제1실시예의 도면이다.

제1실시예에 있어서, 이 클레임 서류의 문자 인식 서버는 저장 장치(11), 프로세서(12), 통신 버스(13) 및 네트워크　인터페이스(14)를 포함한다. 그 중, 통신 버스(13)는 이들 모듈 간의 통신연결을 구현하기 위한 것이다.

저장 장치(11)는 메모리 및 적어도 한 종류의 판독 가능한 저장매체를 포함하고, 메모리는 클레임 서류의 문자 인식 서버의 실행을 위한 캐시를 제공하며, 판독 가능한 저장매체는 플래시　메모리, 하드 디스크, 멀티미디어 카드, 카드 타입 메모리 등과 같은 비휘발성 저장매체일 수 있다. 일부 실시예에 있어서, 상기 판독 가능한 저장매체는 상기 클레임 서류의 문자 인식 서버의 내부　저장　유닛일 수 있고, 예를 들어, 이 클레임 서류의 문자 인식 서버의 하드 디스크 또는 메모리일 수 있다. 다른 일부 실시예에 있어서, 상기　판독 가능한 저장매체는 상기 클레임 서류의 문자 인식 서버의 외부　저장　유닛일 수도 있고, 예를 들어, 상기 클레임 서류의 문자 인식 서버에 설치된 플러그인형 하드디스크, 스마트 미디어 카드(Smart Media Card, SMC), 시큐어 디지털(Secure Digital, SD) 카드, 플래시 카드(Flash Card)등과 같다.

본 실시예에 있어서, 상기 저장장치(11)의 판독 가능한 저장매체는 통상적으로 상기 클레임 서류의 문자 인식 서버에 설치된 응용 소프트웨어 및 각 종류의 데이트를 저장하며, 예를 들어, 클레임 서류의 문자 인식 프로그램 등과 같다. 상기 저장장치(11)는 이미 출력되거나 출력할 데이터를 일시적으로 저장할 수 있다.

일부 실시예에 있어서, 상기 프로세서(12)는 중앙 처리 장치(Central Processing Unit，CPU), 마이크로프로세서, 또는 기타 데이터 처리 칩일 수 있고 상기 저장장치(11)에 저장된 프로그램 코드 또는 처리 데이터를 실행한다.

네트워크 인터페이스(14)는 표준적 유선 네트워크 인터페이스, 무선 네트워크 인터페이스(예를 들어, WI-FI 인터페이스)를 포함할 수 있다.

도4는 모듈(11-14)만 가지는 클레임 서류의 문자 인식 서버를 도시하나 모든 도시된 모듈을 실시하는 것을 요구하지 않고 더 많거나 적은 모듈으로 대체하여 실시할 수 있다는 것을 이해하여야 한다.

선택적으로, 이 클레임 서류의 문자 인식 서버는 유저 인터페이스를 더 포함할 수 있고, 유저 인터페이스는 유선 인터페이스 또는 무선 인터페이스를 포함할 수 있다. 예를 들어, 키보드(Keyboard)와 같은 입력 유닛, 유선 또는 무선 머리 장착형 이어폰 포트, 외부 전원(또는 전지 충전기) 포트, 유선 또는 무선 데이트 포트, 메모리 카드 포트, 인식 모듈을 구비하는 장치에 연결된 포트, 오디오 입출력 (I/O) 포트, 비디오 (I/O) 포트, 이어폰 포트 등과 같다. 이 유저 인터페이스는 외부 장치로부터 입력(예를 들어, 데이트 정보, 전력 등)을 수신할 수 있고 수신한 입력을 단말기의 하나 또는 다수의 부품에 전송한다.

선택적으로, 이 클레임 서류의 문자 인식 서버는 디스플레이 장치를 더 포함할 수 있고, 디스플레이 장치는 LED 모니터, 액정 모니터, 터치 액정 모니터 및 OLED（Organic Light-Emitting Diode，유기 발광 다이오드）터치장치 등일 수 있다. 상기 디스플레이 장치는 상기 클레임 서류의 문자 인식 서버에서 처리된 정보를 디스플레이하고 가시화의 유저 인터페이스를 디스플레이한다.

도4에 도시된 클레임 서류의 문자 인식 서버의 실시예에 있어서, 저장 장치(11)에는 클레임 서류의 문자 인식 프로그램이 저장되며 프로세서(12)는 저장 장치(11)에 저장된 클레임 서류의 문자 인식 프로그램을 실행하여 다음과 같은 단계를 수행한다.

문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득한다.

상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는 다음과 같은 단계를 포함하는 것이 바람직하다.

상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는 다음과 같은 단계를 포함한다.

상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델인 것이 바람직하고, 상기 미리 결정된 분석 모델의 훈련 과정은 다음과 같다.

A．미리 결정된 클레임 서류의 프레임　포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임　포맷에 기초한 클레임 서류 영상 샘플을 획득한다.

B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광　문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정한다.C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시킨다.

D. 각각 상기 제1 훈련 세트와 제2훈련 세트로부터 상기 제1 미리 설정 비례에 따라 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 한다.

E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증한다.

F. 검증 통과율이 미리 설정된 한계값 보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행한다.

상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델인 것이 바람직하고 상기 미리 결정된 인식 모델의 훈련 과정은 다음과 같다.

미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링한다.

미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 한다.

상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 한다.

훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련한다.

훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 한다.

상기 분할 영역은 이 클레임 서류 프레임　포맷의 프레임　라인에 의해 구성된 최소단위의 영역인 것이 바람직하고 상기 분할 영역은 프레임　라인을 포함하지 않은 영역이다.

본 발명에 따른 클레임 서류의 문자 인식 서버의 구체적인 실시방식은 상기 클레임 서류의 문자 인식 방법의 구체적인 실시방식과 유사해서 여기서 생략하기로 한다.

본 발명은 컴퓨터 판독 가능한 저장매체를 더 개시한다.

상기 컴퓨터 판독 가능한 저장매체에는 클레임 서류의 문자 인식 프로그램이 저장되고 이 클레임 서류의 문자 인식 프로그램은 적어도 하나의 프로세서에 의해 실행될 수 있어 다음과 같은 단계를 수행한다.

본 발명에 따른 컴퓨터 판독 가능한 저장매체의 구체적인 실시방식은 상기 클레임 서류의 문자 인식 방법의 구체적인 실시방식과 유사해서 여기서 생략하기로 한다.

본 명세서에 있어서, 용어 "포함하다", "구성하다" 또는 이의 임의 기타 변형은 비 배타성의 포함을 뜻하여 일련의 요소를 포함하는 과정, 방법, 물품 또는 장치는 그런 요소를 포함할 뿐만 아니라 명확하게 열거하지 않은 기타 요소도 포함하거나 이런 과정, 방법, 물품 또는 장치가 고유한 요소를 포함한다. 더 많은 한정이 없는 한 문구 "하나의 ?? 포함한다"에 의해 한정된 요소는 이 요소의 과정, 방법, 물품 또는 장치에는 다른 동일한 요소가 존재한다는 것을 배제하지 않다.

본 기술분야의 당업자에게 있어서 상기와 같은 실시방식에 대한 설명을 통해 상기 실시예 방법이 소프트웨어와 필요하고 통용한 하드웨어 플랫폼으로 구현될 수 있으며 몰론 하드웨어를 통해 구현될 수 있지만 대부분의 경우에서 전자가 바람직한 실시방식임은 자명한 것이다. 이런 이해에 기초하여 본 발명의 기술방안 본질적으로 또는 종래 기술에 공헌할 부분은 소프트웨어 상품으로 구현될 수 있고 이 컴퓨터 소프트웨어 상품은 하나의 저장매체(예를 들어, ROM/RAM, 자기 디스크, 광 디스크)에 저장되고 여러 명령을 포함하여 하나의 단말기장치(휴대폰, 컴퓨터, 서버, 에어컨, 네트워크 장비 등)를 통해 본 발명에 따른 각각의 실시예의 방법을 수행한다.

상기와 같은 실시예는 본 발명의 바람직한 실시예로서 본 발명에 대해 한정하고자 하는 것이 아니다. 상기와 같은 본 발명에 따른 실시예의 순번은 설명하기 위한 것일 뿐 실시예의 우열을 가리기 위한 것이 아니다. 또한, 흐름도에서 논리 순서를 나타내지만 어떤 경우에서 여기의 순서와 다르게 상기 도시되거나 설명된 단계를 수행한다.

본 영역의 기술자들은 본 발명의 범위와 실질을 벗지 않고 여러 가지의 변형방안으로 본 발명을 구현할 수 있으며, 예를 들어, 한 실시예의 특징으로서 다른 실시예에 적용되어 또 다른 실시예를 얻을 수 있다. 본 발명의 기술사상에서 임의 수정, 등가치환, 개진은 모두 본 발명의 특허보호범위내에 포함된다.

Claims

서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
제1항에 있어서,
상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광　문자　인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광　문자　인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하는 단계를 포함하고,
상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는,
미리 결정된 광　문자　인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 단계를 더 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
제2항에 있어서,
상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
A．미리 결정된 클레임 서류의 프레임　포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임　포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광　문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
F. 검증 통과율이 미리 설정된 한계값 보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식방법.
제2항 또는 제3항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
제1항에 있어서,
상기 분할 영역은 이 클레임 서류 프레임　포맷의 프레임　라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임　라인을 포함하지 않은 영역인 것을 특징으로 하는 클레임 서류의 문자 인식 방법.
문자인식할 클레임 서류의 영상을 수신한 후 이 클레임 서류의 프레임 포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 분할 모듈과,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 인식모듈을 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
제6항에 있어서,
상기 인식모듈은,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광　문자　인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광　문자　인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하며,
미리 결정된 광　문자　인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
제7항에 있어서,
상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
A．미리 결정된 클레임 서류의 프레임　포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임　포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
F. 검증 통과율이 미리 설정된 한계값 보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값 보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값 보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
제7항 또는 제8항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
제6항에 있어서,
상기 분할 영역은 이 클레임 서류 프레임　포맷의 프레임　라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임　라인을 포함하지 않은 영역인 것을 특징으로 하는 클레임 서류의 문자 인식 장치.
저장장치 및 프로세서를 포함하고, 상기 저장장치에 클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 이 프로세서에 의해 실행되어,
서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 수행하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
제11항에 있어서,
상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광　문자　인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광　문자　인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하는 단계를 포함하고,
상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는,
미리 결정된 광　문자　인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 단계를 더 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
제12항에 있어서,
상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
A．미리 결정된 클레임 서류의 프레임　포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임　포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
F. 검증 통과율이 미리 설정된 한계값보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
제12항 또는 제13항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
제11항에 있어서,
상기 분할 영역은 이 클레임 서류 프레임　포맷의 프레임　라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임　라인을 포함하지 않은 영역인 것을 특징으로 하는 클레임 서류의 문자 인식 서버.
클레임 서류의 문자 인식 프로그램이 저장되고, 이 클레임 서류의 문자 인식 프로그램은 적어도 하나의 프로세서에 의해 실행되어,
서버가 문자인식할 클레임 서류의 영상을 수신한 후 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하여 하나 또는 다수의 분할영역을 획득하는 단계와,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하며 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하여 각 분할 영역에서의 문자를 인식하도록 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
제16항에 있어서,
상기 미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하는 단계는,
미리 결정된 분석 모델을 호출하여 획득된 각 분할 영역을 분석하여 광　문자　인식 엔진을 이용하여 인식할 수 있는 제1분할영역과 광　문자　인식 엔진을 이용하여 인식할 수 없는 제2분할영역으로 분석되도록 하는 단계를 포함하고,
상기 미리 결정된 인식 규칙에 따라 분석된 각 분할 영역에 대해 각각 문자 인식을 하는 단계는,
미리 결정된 광　문자　인식 엔진을 이용하여 각 상기 제1분할영역에 대해 문자 인식을 하여 각 상기 제1분할영역에서의 문자를 인식하도록 하며 미리 결정된 인식 모델을 호출하여 각 상기 제2분할영역에 대해 문자 인식을 하여 각 상기 제2분할영역에서의 문자를 인식하도록 하는 단계를 더 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
제17항에 있어서,
상기 미리 결정된 분석 모델은 콘볼루션 신경망 모델이고, 상기 미리 결정된 분석 모델의 훈련 과정은,
A．미리 결정된 클레임 서류의 프레임　포맷에 대하여, 미리 설정된 개수의 이 클레임 서류의 프레임　포맷에 기초한 클레임 서류 영상 샘플을 획득하는 단계와,
B. 각 클레임 서류 영상 샘플에 대해 이 클레임 서류의 프레임　포맷의 프레임 라인 배열에 따라 영역 분할을 하며, 단계와각 클레임 서류 영상 샘플 중 광 문자 인식 엔진을 이용하여 잘못된 제3분할영역과 정확한 제4분할영역을 식별하여 결정하는 단계와,
C. 모든 제3분할영역을 제1 훈련 세트에 포함시키고, 모든 제4분할영역을 제2훈련 세트에 포함시키는 단계와,
D. 각각 상기 제1 훈련 세트와 상기 제2훈련 세트로부터 제1 미리 설정 비례의 분할 영역을 추출하여 훈련할 분할 영역으로 하며 상기 제1 훈련 세트와 상기 제2훈련 세트에서 남은 분할 영역을 검증할 분할 영역으로 하는 단계와,
E. 추출된 각 훈련할 분할 영역을 이용하여 모델 훈련을 진행하여 상기 미리 결정된 분석 모델을 생성하고 각 검증할 분할 영역을 이용하여 생성된 상기 미리 결정된 분석 모델을 검증하는 단계와,
F. 검증 통과율이 미리 설정된 한계값보다 크거나 같으면 훈련을 종료하고 검증 통과율이 미리 설정된 한계값보다 작으면 클레임 서류 영상 샘플의 개수를 추가하며 검증 통과율이 한계값보다 크거나 같을 때까지 상기 단계A, B, C, D, E를 반복적으로 수행하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
제17항 또는 제18항에 있어서, 상기 미리 결정된 인식 모델은 장단기기억 LSTM 모델이고 상기 미리 결정된 인식 모델의 훈련 과정은,
미리 설정된 개수의 영역 샘플을 획득하고 각 분할 영역 샘플을 해당 분할 영역 샘플에 포함된 문자로 라벨링하는 단계와,
미리 설정된 개수의 분할 영역 샘플을 미리 설정된 비례에 따라 제1데이터 세트와 제2데이터 세트로 나누며, 상기 제1데이터 세트를 훈련 세트로 하고 상기 제2데이터 세트를 테스트 세트로 하는 단계와,
상기 제1데이터 세트를 LSTM 네트워크에 송신하여 모델 훈련을 하고, 미리 설정된 시간마다 훈련된 모델을 이용하여 상기 제2데이터 세트에서의 분할 영역 샘플에 대해 문자 인식을 할 수 있고 인식된 문자와 해당 분할 영역 샘플의 라벨을 비교하여 인식된 문자와 라벨링한 오차를 계산하도록 하는 단계와,
훈련된 모델에 의해 인식된 문자의 오차가 발산되면 미리 설정된 훈련 파라미터를 조절하여 훈련된 모델이 문자 인식을 하는 오차를 수렴할 때까지 다시 훈련하는 단계와,
훈련된 모델이 문자 인식을 하는 오차가 수렴되면 모델의 훈련을 종료하고 생성된 훈련 모델을 훈련된 상기 미리 결정된 인식 모델로 하는 단계를 포함하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.
제16항에 있어서,
상기 분할 영역은 이 클레임 서류 프레임　포맷의 프레임　라인에 의해 구성된 최소단위의 영역이고 상기 분할 영역은 프레임　라인을 포함하지 않은 영역인 것을 특징으로 하는 컴퓨터 판독 가능한 저장매체.