KR102435365B1 - 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체 - Google Patents

증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체 Download PDF

Info

Publication number
KR102435365B1
KR102435365B1 KR1020207025083A KR20207025083A KR102435365B1 KR 102435365 B1 KR102435365 B1 KR 102435365B1 KR 1020207025083 A KR1020207025083 A KR 1020207025083A KR 20207025083 A KR20207025083 A KR 20207025083A KR 102435365 B1 KR102435365 B1 KR 102435365B1
Authority
KR
South Korea
Prior art keywords
text
line
height
certificate
predicted
Prior art date
Application number
KR1020207025083A
Other languages
English (en)
Other versions
KR20200128015A (ko
Inventor
디신 젱
슈에보 리우
Original Assignee
베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드 filed Critical 베이징 센스타임 테크놀로지 디벨롭먼트 컴퍼니 리미티드
Publication of KR20200128015A publication Critical patent/KR20200128015A/ko
Application granted granted Critical
Publication of KR102435365B1 publication Critical patent/KR102435365B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1452Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on positionally close symbols, e.g. amount sign or URL-specific characters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

본 발명의 실시예는 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체를 개시하고, 여기서, 상기 증명서 인식 방법은, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하는 단계 - 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함됨 - ; 및 상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하는 단계를 포함한다.

Description

증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체
관련 출원의 상호 참조
본 출원은 출원 번호가 201910362419.4이고, 출원일이 2019년 4월 30일인 중국 특허 출원에 기반하여 제출한 것이며, 상기 중국 특허 출원의 우선권을 주장하는바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 인용된다.
본 발명은 컴퓨터 시각 기술에 관한 것으로서, 특히 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체에 관한 것이다.
광학 캐릭터 인식(Optical Character Recognition, OCR) 기술은 다양한 증명서, 카드 및 청구서의 인식에 널리 사용된다. 현재의 OCR 인식 기술은 자주 사용되는 캐릭터의 인식에 대해 비교적 높은 인식 정확도를 갖고 있지만, 소수 민족 문자 등 특수 타입의 캐릭터에 대한 인식 정확도를 향상시킬 필요가 있다. 본 발명은 공개 번호가 CN109492643인 중국 특허 출원을 선행기술문헌으로 한다.
본 발명의 실시예는 증명서 인식 기술을 제공한다.
본 발명의 실시예의 제1 측면에서 증명서 인식 방법을 제공하고, 상기 방법은,
증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하는 단계 - 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함됨 - ; 및
상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하는 단계를 포함한다. 본 출원의 실시예의 제2 측면에서 증명서 인식 장치를 제공하고, 상기 장치는,
증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하기 위한 키 포인트 검출 유닛 - 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함됨 - ; 및
상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하기 위한 텍스트 인식 유닛을 포함한다.
일부 실시예에 있어서, 상기 증명서는 제2 텍스트 영역을 더 포함하고, 여기서, 상기 제2 텍스트 영역은 상기 제1 캐릭터 타입과 상이한 제2 캐릭터 타입에 대응되는 적어도 하나의 텍스트 행을 포함하며, 상기 제2 텍스트 영역은 상기 제1 텍스트 영역의 텍스트 내용과 동일하다.
본 발명의 실시예의 다른 측면에 따르면, 증명서 인식 장치를 제공하고, 상기 장치는,
증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하기 위한 키 포인트 검출 유닛 - 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함됨 - ; 및
상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하기 위한 텍스트 인식 유닛을 포함한다.
본 발명의 실시예의 또 다른 측면에 따르면, 프로세서를 포함하는 전자 기기를 제공하고, 상기 프로세서는 상기 어느 한 항의 실시예에 따른 증명서 인식 장치를 포함한다.
본 발명의 실시예의 또 다른 측면에 따르면, 전자 기기를 제공하고, 상기 전자 기기는, 실행 가능한 명령어를 저장하기 위한 메모리; 및
상기 실행 가능한 명령어를 실행하기 위해 상기 메모리와 통신함으로써 상기 어느 한 항의 실시예에 따른 증명서 인식 방법의 동작을 완료하기 위한 프로세서를 포함한다.
본 발명의 실시예의 또 다른 측면에 따르면, 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 명령어가 실행될 경우 상기 어느 한 항의 실시예에 따른 증명서 인식 방법의 동작을 실행한다.
본 발명의 실시예의 다른 측면에 따르면, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하고, 상기 컴퓨터 판독 가능한 코드가 기기에서 작동될 경우, 상기 기기에서의 프로세서는 상기 어느 한 항의 실시예에 따른 증명서 인식 방법을 구현하기 위한 명령어를 실행한다.
본 발명의 실시예의 또 다른 측면에 따르면, 컴퓨터 판독 가능한 명령어를 저장하기 위한 다른 컴퓨터 프로그램 제품을 제공하고, 상기 명령어가 실행될 경우 컴퓨터로 하여금 상기 어느 한 가능한 구현 방식에서 설명된 얼굴 인식 방법 또는 얼굴 인식 네트워크의 훈련 방법의 동작을 실행하도록 한다.
하나의 선택 가능한 실시형태에 있어서, 상기 컴퓨터 프로그램 제품은 구체적으로 컴퓨터 저장 매체이며, 다른 하나의 선택 가능한 실시형태에 있어서, 상기 컴퓨터 프로그램 제품은 구체적으로 소프트웨어 제품이며, 예를 들어, 소프트웨어 개발 키트(Software Development Kit, SDK) 등이다.
본 발명의 실시예에 따라 다른 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 컴퓨터 프로그램 제품을 더 제공하며, 여기서, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지의 복수 개의 키 포인트의 정보를 획득하며, 여기서, 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함되며; 상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정한다.
본 발명의 상기 실시예에서 제공한 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체에 기반하여, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하며, 여기서, 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함되며; 상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하고, 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 추가하여, 제1 텍스트 영역 중 복수 행의 텍스트의 텍스트 위치에 대한 인식 정확률을 향상시키는데 유리하고, 제1 캐릭터 타입의 텍스트 인식에 대한 다른 캐릭터 타입의 부정적 영향을 감소시키며, 증명서에서의 제1 캐릭터 타입 내용에 대한 인식 정확률을 향상시킨다.
아래에 첨부 도면과 실시예를 통해, 본 발명의 기술적 해결수단을 더 상세히 설명한다.
명세서의 일부를 구성하는 첨부 도면은 본 발명의 실시예를 설명하고, 또한 본 발명의 원리는 설명과 함께 해석되도록 사용된다.
이하의 상세한 설명에 따르면, 본 발명은 첨부 도면을 참조하여 더욱 명확하게 이해될 수 있다.
도 1은 본 발명의 실시예에서 제공한 증명서 인식 기술이 적용된 신분증 예시도이다.
도 2는 본 발명의 실시예에서 제공한 증명서 인식 방법의 흐름 예시도이다.
도 3은 본 발명의 실시예에서 제공한 증명서 인식 방법의 다른 흐름 예시도이다.
도 4는 본 발명의 실시예에서 제공한 증명서 인식 방법의 다른 흐름 예시도이다.
도 5는 본 발명의 실시예에서 제공한 증명서 인식 방법의 또 다른 흐름 예시도이다.
도 6은 본 발명의 실시예에서 제공한 증명서 인식 방법의 또 다른 흐름 예시도이다.
도 7은 본 발명의 실시예에서 제공한 증명서 인식 방법의 응용 예시도이다.
도 8은 본 발명의 실시예에서 제공한 증명서 인식 방법의 다른 응용 예시도이다.
도 9는 본 발명의 실시예에서 제공한 증명서 인식 장치의 구조 예시도이다.
도 10은 본 발명의 실시예의 전자 기기의 예시적 구조 예시도이다.
이하, 첨부 도면을 참조하여 본 발명의 다양한 예시적 실시예를 상세히 설명한다. 유의해야 할 것은, 달리 구체적으로 언급되지 않는 한, 이러한 실시예들에서 반복 설명된 부재, 단계의 상대적 배열, 숫자 표현 및 값은 본 발명의 범위를 한정하지 않는다.
동시에, 도면에 도시된 각 부분의 크기는 설명의 편의를 위해, 실제 비례 관계에 의해 그려진 것이 아님을 알아야 한다.
적어도 하나의 예시적 실시예에 대한 다음의 설명은 다만 예시적인 것이며, 본 발명 및 그 응용 또는 사용을 한정하려는 것은 아니다.
관련 기술 분야의 통상의 기술자에게 공지된 기술, 방법 및 기기는 상세하게 논의되지 않을 수 있지만, 상기 기술, 방법 및 기기는 적절한 상황에서 본 명세서의 일부로서 고려되어야 한다.
유의해야 할 것은, 다음의 첨부 도면에서 유사한 참조 번호와 문자는 유사한 항목을 표시하므로, 어느 한 항목이 하나의 도면에서 정의되면, 후속 도면에서 이에 대해 추가로 논의될 필요가 없다.
본 발명의 실시예는 신분증 인식에 주로 적용되지만, 다른 고정되거나 부분적으로 고정된 포맷을 갖는 증명서 또는 청구서의 인식에도 적용될 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
현재의 OCR 인식 알고리즘은 대부분 신분증, 예를 들어 한족 신분증에 대해 비교적 높은 인식 정확도를 갖고 있지만, 소수 부분의 신분증, 예를 들어 소수 민족 신분증에 대한 인식은 주로 아래와 같은 주요 문제에 직면하고 있다.
몽고족, 위그르족 등과 같은 일반적인 소수 민족 신분증에 있어서, 이러한 증명서에는 한자 이외에, 또한 이에 대응되는 소수 민족 문자가 존재하며, 예를 들어 도 1에 도시된 바와 같다. 관련 기술에서 사용된 신분증 인식 모델은 소수 민족 문자를 인식할 수 없으므로, 소수 민족 신분증의 텍스트 인식 중 소수 민족 문자를 에러 코드로 인식하며, 이와 동시에 소수 민족 문자의 영향으로 인해, 한자 인식에 대량의 에러가 발생될 수 있다.
또한, 소수 민족 신분증은 여러가지 포맷이 존재하고, 주소 필드를 예로 들면, 현재 두 가지의 일반 포맷이 존재하며, 제1 타입의 포맷 중 소수 민족 문자 및 한자 사이에는 뚜렷한 행 차이가 없이, 한 줄씩 나타나며; 제2 타입의 포맷 중, 도 1에 도시된 바와 같이, 소수 민족 및 한자가 동일한 영역에 나타나지만, 중간에는 뚜렷한 행 차이가 있어, 한 줄씩 나타나지 않는다. 포맷의 다양화는 소수 민족 신분증 인식의 정확도에도 영향을 미친다.
상기 적어도 한 가지의 문제에 대해, 본 발명의 실시예는 이미지 인식 기술을 제안하여, 키 포인트로서, 한자 영역 중 복수 개의 텍스트 행을 포함하는 제1 텍스트 영역의 적어도 두 개의 경계 한계점(예를 들어, 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트 등 제1 텍스트 영역 경계를 결정할 수 있는 포인트)을 키 포인트에 추가하는 것을 통해, 제1 텍스트 영역을 적어도 포함하는 한자 영역에 대한 위치 결정 정확도를 향상시키고, 소수 민족 문자가 한자 인식에 대한 영향을 저하시킴으로써, 증명서 인식 정확도를 향상시킴에 있어서 유리하다.
도 1은 본 발명의 실시예에서의 24 개의 키 포인트를 예시적으로 도시하고, 상기 24 개의 키 포인트는, 증명서 이미지의 4 개의 정점 키 포인트, 필드 명칭 영역("이름", "성별", "출생", "주소" 및 "주민 신분증 번호"를 포함함)의 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트, 일부 필드의 필드 정보 영역(이름 필드 정보 영역, 성별 필드 정보 영역, 민족 필드 정보 영역 및 신분증 번호 필드 정보 영역을 포함함)의 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트를 포함하며, 또한, 주소 필드 정보 영역의 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트를 더 포함하며, 본 발명의 실시예는 주소 필드 정보 영역의 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트를 통해, 소수 민족 신분증에서의 한자 인식에 대한 정확률을 향상시킨다.
이해해야 할 것은, 도 1에 도시된 24 개의 키 포인트는 다만 예시적인 것일 뿐이고, 본 발명의 실시예는 다른 개수 및 타입의 키 포인트를 사용할 수도 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
이해해야 할 것은, 본 발명의 실시예에서 제공한 기술방안은 소수 민족 신분증 인식의 정확도에 유리하지만, 한족 신분증의 인식에도 적용되거나, 적어도 두 가지의 상이한 문자 타입을 임의로 유사하게 포함하는 증명서 인식에도 적용되며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
도 2는 본 발명의 실시예에서 제공한 증명서 인식 방법의 흐름 예시도이다.
단계 210에 있어서, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득한다.
일부 실시예에 있어서, 상기 증명서 인식 방법은 다양한 이미지 처리 기기에 적용될 수 있고, 예를 들어, 상기 이미지 처리 기기는, 핸드폰, 태블릿 컴퓨터, 웨어러블 기기, 액세스 제어 기기 등 단말 기기를 포함한다.
다른 일부 실시예에 있어서, 상기 증명서 인식 방법은 네트워크측의 서버에 적용될 수 있고, 단말을 이용하여 증명서 이미지를 수집하고, 서버로 업로드하며, 서버는 상기 증명서 이미지를 인식하여 증명서 이미지에 대응되는 증명서의 증명서 정보를 획득하고, 상기 증명서 정보는 텍스트 인식 결과를 적어도 포함한다.
예를 들어, 사용자가 신원 정보를 제출하여 신원 검증해야 하는 시나리오에서, 본 출원의 실시예의 증명서 인식 방법을 사용하면, 사용자는 신원 정보를 수동으로 입력할 필요 없이, 증명서 이미지를 간단하게 수집할 수 있고, 단말 또는 서버는 증명서 이미지에 대한 인식을 통해, 증명서 중 텍스트 인식 결과를 획득한다.
여기서, 복수 개의 키 포인트는 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함된다.
상기 복수 개의 키 포인트의 정보는 복수 개의 키 포인트가 증명서 이미지에서의 위치 정보를 포함한다.
상기 증명서 이미지는 증명서에 대한 수집에 의해 형성된 이미지이다. 상기 증명서는, 신분증, 여권, 거주 허가증, 임시 거주 허가증, 학위 증명서, 학업 증명서 등 여러가지 타입 캐릭터를 포함하는 다양한 증명서 이미지를 포함하지만 이에 한정되지 않는다.
증명서에는 두 가지 타입, 즉 제1 캐릭터 타입 및 제2 캐릭터 타입의 캐릭터를 포함하고, 여기서, 제1 캐릭터 타입 및 제2 캐릭터 타입의 텍스트는 상이한 행에 나타나며, 여기서, 제1 캐릭터 타입의 텍스트 행 및 제2 캐릭터 타입의 텍스트 행에는 동일하거나 상이한 내용이 존재할 수 있다.
일부 실시예에 있어서, 제1 캐릭터 타입은 한자 등과 같은 인식 가능한 캐릭터 타입 또는 인식된 타겟 캐릭터 타입일 수 있고, 제2 캐릭터 타입은 인식하지 못하는 캐릭터 타입 또는 인식하지 않는 캐릭터 타입이며, 예를 들어, 소수 민족 문자 등이다. 예를 들어 신분증 인식 기술에 있어서, 인식 기술의 보편성을 유지하기 위해, 한족 신분증의 인식 및 소수 민족 신분증의 인식에 동시에 적용되어, 신분증에서의 한자를 인식하고, 여기서의 소수 민족 문자를 인식하지 않는다.
일부 실시예에 있어서, 상기 제1 캐릭터 타입은 한자일 수 있고, 상기 제2 캐릭터 타입은 다른 나라 또는 지역에서 사용하는 언어일 수 있으며, 예를 들어, 다른 나라의 소수 언어의 캐릭터일 수 있다.
본 발명의 실시예에 있어서, 제1 캐릭터 타입에 대응되는 텍스트 영역은 제1 캐릭터 타입의 텍스트만 포함할 수 있거나, 숫자 등과 같은 제1 캐릭터 타입 및 제2 캐릭터 타입 이외의 다른 캐릭터 타입을 추가로 포함할 수도 있으며, 이와 유사하게, 제2 캐릭터 타입에 대응되는 텍스트 영역은 제2 캐릭터 타입의 텍스트 및 다른 캐릭터 타입의 텍스트를 포함할 수 있으며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
일부 선택 가능한 실시예에 있어서, 증명서는 제2 텍스트 영역을 더 포함하고, 여기서, 제2 텍스트 영역은 제1 캐릭터 타입과 상이한 제2 캐릭터 타입에 대응되는 적어도 하나의 텍스트 행을 포함하며, 제2 텍스트 영역은 제1 텍스트 영역과 동일한 텍스트 내용을 갖는다. 예를 들어, 도 1에 도시된 바와 같이, 신분증에서의 주소 필드 정보 영역은 한자 정보 영역 및 소수 민족 문자 정보 영역을 포함하고, 인물의 동일한 주소를 나타낸다. 제1 텍스트 영역 및 제2 텍스트 영역이 각각 도 1에 도시된 예에서의 주소 필드 정보 영역의 한자 정보 영역 및 소수 민족 문자 정보 영역이면, 제2 텍스트 영역은 제1 텍스트 영역에 인접하거나 적어도 하나의 빈 행을 간격으로 두고 있지만, 본 발명의 실시예는 이에 한정되지 않는다.
본 발명의 실시예의 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하고, 여기서, 키 포인트의 정보는 위치 정보를 포함하며, 또는 다른 정보를 추가로 포함하며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
증명서의 복수 개의 키 포인트는 제1 텍스트 영역의 적어도 두 개의 경계 한계점, 예를 들어, 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트, 또는 왼쪽 하단 키 포인트 및 오른쪽 하단 키 포인트, 또는 4 개의 정점 등을 포함하며, 본 발명의 실시예는 이에 대해 한정하지 않는다.
제1 캐릭터 타입에 대응되는 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 키 포인트에 포함시키는 것을 통해, 제1 텍스트 영역으로 정확하게 위치 결정될 수 있으므로, 제1 텍스트 영역의 정확한 예측 행 높이를 획득함에 있어서 유리하고, 제2 캐릭터 타입의 텍스트가 증명서 인식에 대한 영향을 저하시키며, 인식 정확도를 향상시킨다.
단계 220에 있어서, 복수 개의 키 포인트의 정보에 기반하여, 증명서의 텍스트 인식 결과를 결정한다.
일부 실시예에 있어서, 복수 개의 키 포인트의 정보에 기반하여, 제1 텍스트 영역에 포함된 텍스트 행의 정확한 위치를 결정할 수 있고, 텍스트 인식 방법에 기반하여, 위치가 결정된 제1 캐릭터 타입의 텍스트를 추가로 인식하여, 제1 텍스트 영역의 텍스트 인식 결과를 획득한다. 일부 실시예에 있어서, 또한 제1 텍스트 영역에 포함된 제1 캐릭터 타입의 텍스트 행의 위치에 기반하여, 증명서에 포함된 다른 텍스트 영역에서의 제1 캐릭터 타입의 텍스트 행의 위치를 결정할 수 있어, 증명서의 텍스트 인식 정확도를 향상시킴에 있어서 유리하다.
본 발명의 상기 실시예에서 제공한 증명서 인식 방법에 기반하여, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하며, 여기서, 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함되며; 상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하고, 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 추가하는 것을 통해, 제1 텍스트 영역 중 여러 행의 텍스트의 텍스트 위치에 대한 인식 정확률을 향상시킴에 있어서 유리하고, 다른 캐릭터 타입이 제1 캐릭터 타입의 텍스트에 대한 인식에 의한 효과를 감소시키며, 증명서 중 제1 캐릭터 타입 내용에 대한 인식 정확률을 향상시킨다.
소수 민족에 대한 증명서에 있어서, 제1 캐릭터 타입은 한자이고, 제2 캐릭터 타입은 소수 민족 문자이다.
현재 문자 인식 기술이 소수 민족 문자에 대한 인식을 구현할 수 없으므로, 본 발명의 실시예에서 소수 민족 문자가 한자 내용에 대한 간섭을 제거해야 하고, 예를 들어, 소수 민족 문자 및 한자가 한 줄씩 나타날 경우, 즉 소수 민족 문자 필드와 한자 필드 사이에 간격이 있으면, 이때 원시 신분증 처리 방법이 텍스트 영역을 자주 검출하지 못하므로, 소수 민족 문자를 한자로 잘못 사용하여 검출 인식을 수행하여, 결과 에러를 초래한다.
일부 실시예에 있어서, 상기 제1 텍스트 영역 및 상기 제2 텍스트 영역은 직사각형 영역과 같은 서로 연결된 사변형일 수 있다.
도 3은 본 발명의 실시예에서 제공한 증명서 인식 방법의 다른 흐름 예시도이다.
단계 310에 있어서, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득한다.
여기서, 복수 개의 키 포인트는 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함된다.
단계 320에 있어서, 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여, 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치를 결정한다.
일부 실시예에 있어서, 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여 하나의 직사각형 영역을 결정할 수 있고, 상기 직사각형 영역은 제1 텍스트 영역을 적어도 포함하며, 또한 일부의 제2 텍스트 영역을 더 포함할 수 있으며; 제1 텍스트 영역에서의 제1 캐릭터 타입을 인식하기 위해, 각 텍스트 행의 위치 즉 본 발명의 실시예에서 결정된 각 텍스트 행의 타겟 예측 위치를 결정해야 하며, 다음 타겟 예측 위치에서 문자 인식을 수행하면, 제1 영역에 포함된 제1 캐릭터 타입의 내용을 결정할 수 있다. 제1 텍스트 영역 중 내용을 한 줄씩 인식할 수 있고, 한 줄씩 인식하는 방법은 문자 인식의 정확률을 향상시키며, 행과 행 사이의 교차로 인한 인식 에러를 감소시킨다.
단계 330에 있어서, 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치에 기반하여, 증명서에 포함된, 제1 캐릭터 타입에 대응되는 적어도 하나의 텍스트 영역을 인식하여, 증명서의 텍스트 인식 결과를 획득한다.
증명서의 타입이 여러 가지를 포함하므로, 증명서에는 복수 개의 인식 가능한 내용의 텍스트 영역(제1 텍스트 영역을 포함함)이 포함될 수 있으며, 이러한 텍스트 영역에서의 캐릭터 타입은 모두 제1 캐릭터 타입이며, 또한, 증명서가 포맷이 고정적인 특수 이미지에 속하므로, 복수 개의 텍스트 영역 중 문자의 행 높이가 동일한 경우가 존재할 수 있으며, 예를 들어, 신분증 중 한자의 높이가 동일하고, 즉 신분증 이미지 중 한자 행 높이가 동일하며; 따라서, 제1 텍스트 영역에 포함된 텍스트 행의 타겟 예측 위치를 결정한 경우, 제1 텍스트 영역에 포함된 텍스트 행의 행 높이를 결정할 수 있으며, 상기 행 높이로 다른 텍스트 영역에서의 텍스트 행의 행 높이를 교정할 수 있으며, 교정 후의 텍스트 행의 행 높이로 다른 텍스트 영역 중 각 텍스트 행의 위치를 결정할 수 있어, 다른 텍스트 영역에서의 내용을 결정하고, 다른 텍스트 영역 중 문자의 인식 정확률을 향상시킨다.
도 4는 본 발명의 실시예에서 제공한 증명서 인식 방법의 다른 실시예 중 일부 흐름 예시도이다. 상기 실시예를 기반으로, 단계 320은 아래와 같은 단계를 포함한다.
단계 402에 있어서, 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여, 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 초기 예측 위치를 결정한다.
일부 실시예에 있어서, 텍스트 행의 초기 예측 위치는 텍스트 행의 상부 경계 및 하부 경계를 포함할 수 있고, 상하부 경계의 좌표를 통해 텍스트 행의 위치를 결정할 수 있으며; 본 발명의 실시예에서의 초기 예측 위치는 제1 텍스트 영역에 포함된 행수, 각 텍스트 행의 초기 행 높이, 및 경계 한계점의 정보에 기반하여 결정된 제1 텍스트 영역의 상부 경계 및 하부 경계에 기반하여 결정될 수 있으며, 여기서, 행수 및 초기 행 높이는 신경 네트워크를 이용하여 획득될 수 있으며, 예를 들어, 딥 신경 네트워크를 이용하여 증명서 중 제1 텍스트 영역에 포함된 행수 및 제1 텍스트 영역 중 각 텍스트의 초기 행 높이를 인식한다.
단계 404에 있어서, 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한 것에 응답하여, 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 초기 예측 위치에 대해 수정 처리를 수행하여, 복수 개의 텍스트 행의 타겟 예측 위치를 획득한다.
내용 인식의 정확률을 향상시키기 위해, 본 발명의 실시예에서 초기 예측 위치를 획득한 후, 상기 초기 예측 위치가 정상인지 여부를 판단해야 하고, 초기 예측 위치에 이상이 존재할 경우, 상기 초기 예측 위치로 인식하면 인식 내용의 에러를 초래할 수 있으며, 본 발명의 실시예는 수정 처리를 통해, 텍스트 행 위치의 정확성을 향상시키며; 제1 텍스트 영역에 포함된 복수 개의 텍스트 행에 의해, 하나 또는 복수 개의 텍스트 행의 초기 예측 위치가 이상이 존재할 수 있으므로, 그 수정 과정은 다른 텍스트 행의 행 높이에 기반하여 이상이 존재하는 초기 예측 위치를 수정할 수 있고, 다른 방식에 기반하여 초기 예측 위치를 수정할 수도 있으며, 본 발명의 실시예는 구체적인 수정 방식에 대해 한정하지 않는다.
복수 개의 텍스트 행의 초기 예측 위치를 획득한 후, 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정할 수 있다.
구체적으로, 복수 개의 텍스트 행의 초기 위치에 이상이 존재하는지 여부를 종합적으로 판단할 수 있다. 일부 실시예에 있어서, 복수 개의 텍스트 행에 행 높이에 이상이 존재하는 텍스트 행이 존재하는지 여부를 판단하는 것을 통해, 복수 개의 텍스트 행의 초기 위치에 이상이 존재하는지 여부를 결정한다. 예를 들어, 대응되는 초기 예측 행 높이가 제1 기설정된 행 높이보다 큰 텍스트 행이 상기 복수 개의 텍스트 행에 존재하는 것에 응답하여, 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한다. 또 예를 들어, 상기 복수 개의 텍스트 행의 평균 예측 행 높이가 제2 기설정된 행 높이보다 높은 것에 응답하여, 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한다.
일부 실시예에 있어서, 제1 기설정된 행 높이는 대량의 증명서에서의 텍스트 행 높이를 통계하는 것을 통해 획득된 것일 수 있고, 예를 들어, 제1 기설정된 행 높이를 15 픽셀로 설정한다.
본 발명의 실시예는 제1 기설정된 행 높이보다 큰지 여부를 초기 예측 행 높이가 정상인지 여부의 판단 기준으로 사용한다. 각 텍스트 행의 행 높이가 제1 기설정된 행 높이보다 모두 작거나 같을 경우, 행수 및 초기 예측 행 높이의 인식 결과가 상대적으로 정확한 것을 설명하고, 이때, 일부 실시예에 있어서, 인식에 의해 획득된 제1 텍스트 영역 상부 경계 및 제1 텍스트 영역 하부 경계 및 행수(또는 모든 행의 행 높이에 대해 평균을 취함)에 기반하여, 제1 평균 행 높이를 획득하여, 제1 평균 행 높이를 각 텍스트 행의 타겟 예측 행 높이로 사용함으로써, 각 텍스트 행의 타겟 예측 위치를 결정한다. 다른 일부 실시예에 있어서, 복수 개의 텍스트 행에서 하나 또는 하나 이상의 텍스트 행의 초기 예측 행 높이가 제1 기설정된 행 높이보다 클 경우, 복수 개의 텍스트 행의 초기 예측 행 높이가 잘못 인식된 것을 설명하므로, 문자 인식 결과의 정확률을 향상시키기 위해 수정해야 한다.
일부 실시예에 있어서, 단계 404는, 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 영역 중 초기 예측 행 높이에 이상이 존재하는 텍스트 행을 결정하는 단계; 상기 제1 텍스트 영역 중 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 상기 제1 텍스트 행의 타겟 예측 행 높이를 획득하는 단계; 및 상기 제1 텍스트 행의 타겟 예측 행 높이에 기반하여 상기 제1 텍스트 행의 초기 예측 위치를 수정하여, 상기 제1 텍스트 행의 타겟 예측 위치를 획득하는 단계를 포함한다.
구체적으로, 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한 경우에, 복수 개의 텍스트 행 중 일부 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 먼저 판단한 다음, 이러한 초기 예측 위치에서 이상이 존재하는 텍스트 행에 대해 위치 수정을 수행한다. 예시적으로, 복수 개의 텍스트 행 중 제1 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 검출되면, 예를 들어, 초기 예측 행 높이에 이상이 존재하면, 상기 제1 텍스트 행에 대해 예측 행 높이의 수정을 수행함으로써, 정확한 타겟 예측 위치를 획득한다.
일부 실시예에 있어서, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 제1 예측 평균 행 높이 및 상기 제1 텍스트 행의 초기 예측 행 높이에 기반하여, 상기 복수 개의 텍스트 행 중 상기 제1 텍스트 행 이외의 적어도 하나의 제2 텍스트 행의 제2 예측 평균 행 높이를 결정하고, 상기 제2 예측 평균 행 높이에 기반하여, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정한다.
일부 실시예에 있어서, 제1 텍스트 영역의 경계 한계점의 위치 정보 및 예측 행수에 기반하여, 제1 텍스트 영역의 제1 예측 평균 행 높이를 획득한 다음, 제1 예측 평균 행 높이 및 제1 텍스트 행의 초기 예측 행 높이에 기반하여, 제1 텍스트 영역 중 나머지 적어도 하나의 제2 텍스트 행의 평균 예측 행 높이 즉 제2 평균 예측 행 높이를 획득할 수 있으며, 마지막으로, 제2 평균 예측 행 높이에 기반하여, 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 제1 텍스트 행의 타겟 예측 행 높이를 획득할 수 있다.
도 5는 본 발명의 실시예에서 제공한 증명서 인식 방법의 또 다른 흐름 예시도이다. 여기서, 예시적으로, 단계 404는 아래와 같은 단계를 포함한다.
단계 502에 있어서, 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보 및 제1 텍스트 행의 적어도 하나의 인접한 행의 초기 예측 위치에 기반하여, 제1 텍스트 행의 초기 예측 위치에 대응되는 초기 예측 행 높이에 이상이 존재하는지 여부를 결정한다.
여기서, 인접한 행은 제1 텍스트 행의 이전 행의 텍스트 행 및 다음 행의 텍스트 행 중 적어도 하나일 수 있고, 제1 텍스트 행이 첫 번째 행일 경우, 상기 인접한 행은 다음 행의 텍스트 행이며, 제1 텍스트 행이 중간 행일 경우, 상기 인접한 행은 이전 행의 텍스트 행 및 다음 행의 텍스트 행이며, 제1 텍스트 행이 마지막 행일 경우, 상기 인접한 행은 이전 행이며, 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 행 높이가 동일해야 하므로, 제1 텍스트 행과 인접한 행의 초기 예측 행 높이 사이의 차이가 일정한 정도에 도달할 경우, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것을 설명한다.
단계 504에 있어서, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정한 것에 응답하여, 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 제1 텍스트 행의 타겟 예측 행 높이를 획득한다.
일부 실시예에 있어서, 제2 텍스트 영역에서의 내용이 제1 텍스트 영역에서의 내용과 동일하므로, 제2 텍스트 영역은 일반적으로 제1 텍스트 영역에 인접한다.
제1 텍스트 영역 내의 문자 내용에 대한 제2 텍스트 영역의 영향을 감소시키기 위해, 제2 텍스트 영역이 제1 텍스트 영역의 상부에 위치할 경우, 본 발명의 실시예의 제1 텍스트 영역 중 마지막 행의 위치는 일반적으로 수정하지 않아도 된다. 이때 제1 텍스트 행의 다음 행으로 제1 텍스트 행의 초기 예측 위치를 수정하고, 제1 텍스트 영역 중 텍스트 행에 대한 수정은 첫 번째 행부터 마지막 두 번째 행이며; 제2 텍스트 영역이 제1 텍스트 영역 하부에 위치할 경우, 본 발명의 실시예의 제1 텍스트 영역 중 첫 번째 행의 위치는 일반적으로 수정하지 않아도 되며, 이때 제1 텍스트 행의 이전 행으로 제1 텍스트 행의 초기 예측 위치를 수정하고, 제1 텍스트 영역 중 텍스트 행에 대한 수정은 마지막 행으로부터 두 번째 행이다.
단계 506에 있어서, 제1 텍스트 행의 타겟 예측 행 높이에 기반하여 제1 텍스트 행의 초기 예측 위치를 수정하여, 제1 텍스트 행의 타겟 예측 위치를 획득한다.
일부 실시예에 있어서, 제1 텍스트 행의 타겟 예측 행 높이를 결정한 후, 결정된 제1 텍스트 행의 상부 경계에 기반하여 하부 경계를 결정할 수 있거나, 결정된 제1 텍스트 행의 하부 경계에 기반하여 상부 경계를 결정할 수 있으며, 상부 경계 및 하부 경계에 기반하여 타겟 예측 위치를 결정할 수 있다.
일부 실시예에 있어서, 제1 텍스트 행의 타겟 예측 행 높이에 기반하여, 제1 텍스트 행의 초기 예측 상부 경계를 조정하여, 제1 텍스트 행의 타겟 예측 상부 경계를 획득한다.
제1 텍스트 행의 타겟 예측 행 높이를 이미 결정한 후, 제2 텍스트 영역이 제1 텍스트 영역 상부에 위치하면, 상부 경계를 일반적으로 인식 에러가 발생될 수 있는 것으로 결정할 수 있다. 이때, 다음 행의 상부 경계에 기반하여 제1 텍스트 행의 상부 경계를 결정할 수 있고, 일부 실시예에 있어서, 제1 텍스트 행의 하부 경계는 다음 텍스트 행의 상부 경계와 교차될 수 있으며, 본 발명의 실시예는 제1 텍스트 행의 하부 경계를 수정하여, 다음 텍스트 행의 문자가 제1 텍스트 행에 대한 영향을 방지할 수 있다. 예를 들어, 제1 텍스트 행의 하부 경계 = 다음 텍스트 행의 상부 경계 - 1 픽셀(pixel)이다. 선택적으로, 제1 텍스트 행의 타겟 예측 상부 경계 = 제1 텍스트 행의 하부 경계 - 타겟 예측 행 높이이다.
본 발명의 실시예는 인접한 행의 초기 예측 위치를 통해 제1 텍스트 행의 초기 예측 행 높이를 수정하고, 다음 수정된 타겟 예측 행 높이에 기반하여 타겟 예측 위치를 결정하여, 획득된 제1 텍스트 영역에 포함된 복수 개의 텍스트 행이 행 높이 및 위치 관계가 더 정확하도록 하므로, 제1 텍스트 영역 중 내용 인식의 정확률을 향상시킨다.
도 6은 본 발명의 실시예에서 제공한 증명서 인식 방법의 또 다른 흐름 예시도이다. 여기서, 예시적으로, 단계 502는 아래와 같은 단계를 포함한다.
단계 602에 있어서, 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보 및 제1 텍스트 영역의 예측 행수에 기반하여, 제1 텍스트 영역 중 복수 개의 텍스트 행의 제1 예측 평균 행 높이를 결정한다.
예를 들어, 적어도 두 개의 경계 한계점은 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트를 포함하고, 제1 텍스트 영역의 왼쪽 상단 키 포인트에 기반하여 제1 텍스트 영역의 상부 경계 좌표를 결정할 수 있고, 오른쪽 하단 키 포인트에 기반하여 제1 텍스트 영역의 하부 경계 좌표를 결정하며, 상부 경계 좌표 및 하부 경계 좌표의 차를 구하는 것을 통해 제1 텍스트 영역의 높이를 결정할 수 있으며, 신경 네트워크에 기반하여 제1 텍스트 영역에 포함된 예측 행수를 인식하며, 이때, 제1 텍스트 영역의 높이가 예측 행수에 위치하면, 제1 예측 평균 행 높이를 결정할 수 있다.
단계 604에 있어서, 제1 텍스트 영역 중 복수 개의 텍스트 행의 제1 예측 평균 행 높이 및 제1 텍스트 행의 적어도 하나의 인접한 행의 초기 예측 위치에 대응되는 초기 예측 행 높이의 적어도 하나에 기반하여, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는지 여부를 결정하며; 예를 들어, 제1 텍스트 영역의 제1 예측 평균 행 높이 및 제1 텍스트 행의 적어도 하나의 인접한 행의 초기 예측 위치에 대응되는 초기 예측 행 높이에 기반하여, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는지 여부를 결정한다.
본 발명의 실시예에 있어서, 제1 예측 평균 행 높이는 제1 텍스트 영역 중 모든 텍스트 행의 행 높이를 판단하는데 사용될 수 있고, 행수 예측이 정확할 경우, 제1 텍스트 행의 초기 예측 행 높이와 제1 예측 평균 행 높이 사이의 관계에 기반하여 초기 예측 행 높이에 이상이 존재하는지 여부를 결정하며, 예를 들어, 제1 텍스트 행의 초기 예측 행 높이는 제1 예측 평균 행 높이의 설정된 배수보다 크다. 그러나 또한 인식 과정에서 행수를 잘못 예측할 수 있으므로, 본 발명의 실시예는 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는지 여부의 평가 기준으로서 제1 예측 평균 행 높이의 기초 상에서 인접한 행의 초기 예측 위치를 추가하여, 초기 예측 행 높이에 이상이 존재하는지 여부를 판단하는 정확성을 향상시킨다.
예를 들어, 일부 실시예에 있어서, 단계 604는, 제1 텍스트 행의 초기 예측 행 높이가 제1 예측 평균 행 높이의 제1 기설정된 배수에 도달한 것에 응답하여, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정하는 단계, 또는, 제1 텍스트 행의 초기 예측 행 높이가 제1 텍스트 행의 적어도 하나의 인접한 행의 초기 예측 행 높이의 제2 기설정된 배수, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정하는 단계, 또는, 제1 텍스트 행의 초기 예측 행 높이가 제1 예측 평균 행 높이의 제1 기설정된 배수에 도달하고 제1 텍스트 행의 초기 예측 행 높이가 제1 텍스트 행의 적어도 하나의 인접한 행의 초기 예측 행 높이의 제2 기설정된 배수에 도달한 것에 응답하여, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정하는 단계를 포함한다. 이때 제1 예측 배수 및 제2 기설정된 배수는 동일할 수 있거나 상이할 수 있으며, 예를 들어, 제1 예측 배수 및 제2 기설정된 배수를 1.2 등으로 설정하며, 본 발명의 실시예는 제1 예측 배수 및 제2 기설정된 배수의 구체적인 값을 한정하지 않는다.
또 예를 들어, 일부 실시예에 있어서, 단계 604는, 제1 텍스트 행의 초기 예측 행 높이가 제1 예측 평균 행 높이의 제1 기설정된 배수에 도달하고, 제1 텍스트 행의 초기 예측 행 높이가 제1 텍스트 행의 다음 텍스트 행의 초기 예측 행 높이의 제2 기설정된 배수에 도달한 것에 응답하여, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정하는 단계를 포함한다.
본 발명의 실시예는 제2 텍스트 영역이 제1 텍스트 영역 상부에 위치한 경우에 대한 것이고, 이때, 하부에 위치한 텍스트 행일수록 텍스트 내용에 간섭을 생성할 수 있는 제2 텍스트 영역에 더 멀며, 즉, 하부에 위치한 텍스트 행의 초기 예측 행 높이가 상대적으로 높으므로, 본 발명의 실시예는 다음 텍스트 행의 초기 예측 행 높이에 기반하여 제1 텍스트 행의 초기 예측 행 높이에 대해 이상 확인을 수행하여, 이상 상황 확인의 정확률을 향상시킨다.
일부 실시예에 있어서, 단계 504는, 제1 예측 평균 행 높이 및 제1 텍스트 행의 초기 예측 행 높이에 기반하여, 복수 개의 텍스트 행 중 제1 텍스트 행 이외의 다른 텍스트 행의 제2 예측 평균 행 높이를 결정하는 단계; 및 제2 예측 평균 행 높이에 기반하여, 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 제1 텍스트 행의 타겟 예측 행 높이를 획득하는 단계를 포함한다. 본 발명의 실시예에 있어서, 제1 예측 평균 행 높이 및 다음 텍스트 행의 초기 예측 행 높이에 기반하여 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정하였으면, 이때, 다른 텍스트 행(다음 텍스트 행을 포함함)의 초기 예측 행 높이가 상대적으로 정확한 것으로 간주할 수 있으므로, 다른 텍스트 행의 초기 예측 행 높이의 평균을 취하는 것으로 제2 예측 평균 행 높이를 획득하며, 상기 제2 예측 평균 행 높이로 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 제1 텍스트 행의 타겟 예측 행 높이가 제1 텍스트 영역에서의 다른 텍스트 행의 행 높이에 더 가깝도록 함으로써, 제1 텍스트 영역 중 각 텍스트 행의 타겟 예측 행 높이의 정확성을 향상시킨다.
일부 실시예에 있어서, 제2 예측 평균 행 높이가 제1 기설정된 값보다 큰 것에 응답하여, 제1 텍스트 행의 행 높이를 제2 기설정된 값으로 수정하고; 예를 들어, 상기 제1 텍스트 행의 수정된 행 높이가 제2 기설정된 값보다 크거나 같은 것에 응답하여, 상기 제1 텍스트 행의 다음 텍스트 행의 초기 예측 위치에 대응되는 초기 예측 행 높이를 상기 제1 텍스트 행의 타겟 예측 행 높이로 사용한다.
다른 일부 실시예에 있어서, 제2 예측 평균 행 높이가 제2 기설정된 값보다 작거나 같은 것에 응답하여, 제1 텍스트 행의 행 높이를 제2 예측 평균 행 높이로 수정한다.
제1 텍스트 행의 행 높이는 이론적으로 제1 텍스트 행 높이를 나눈 후 다른 행의 행 높이에 기반하여 결정된 제2 예측 평균 행 높이이고, 제2 예측 평균 행 높이가 제1 기설정된 값보다 크면, 이때 검출된 제1 텍스트 행이 실제 증명서 중 제1 텍스트 영역의 한 행이 아님을 설명하며, 오검출이 생성된 후, 두 개의 행을 한 행으로 병합한 결과이며, 예를 들어, 실제 신분증의 제1 텍스트 영역에 4 개의 행이 있지만, 실제 3 개의 행이 검출되고, 중간의 한 행의 행 높이가 또 마침 제1 평균 행 높이에 접근하면, 이때 중간 행을 첫 번째 행 및 세 번째 행의 제2 행 높이 초기 예측 행 높이에 기반하여 수정하며; 이때 제1 텍스트 행의 행 높이를 제2 기설정된 값으로 설정하면 되고, 제2 예측 평균 행 높이가 제2 기설정된 값보다 작거나 같으면, 제1 텍스트 행의 행 높이를 제2 예측 평균 행 높이로 설정한다.
일부 실시예에 있어서, 제1 텍스트 행의 타겟 예측 행 높이를 결정한 후, 제1 텍스트 행의 하부 경계가 움직이지 않는 조건 하에서, 상기 제1 텍스트 행의 타겟 예측 행 높이에 기반하여, 상기 제1 텍스트 행의 초기 예측 위치에 대응되는 예측 상부 경계를 조정하여, 상기 제1 텍스트 행의 타겟 예측 상부 경계를 획득한다.
일부 실시예에 있어서, 단계 604는,
제1 텍스트 행의 초기 예측 행 높이가 제1 텍스트 행의 이전 텍스트 행 및 다음 텍스트 행의 초기 예측 행 높이의 제2 기설정된 배수에 도달한 것에 응답하여, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정하는 단계; 및
제1 텍스트 행의 이전 텍스트 행 및 다음 텍스트 행의 초기 예측 행 높이에 기반하여, 제1 텍스트 행의 수정된 행 높이를 획득하는 단계를 포함한다.
본 발명의 실시예에 있어서, 제1 텍스트 행이 중간 행이고, 이에 인접한 텍스트 행은 이전 텍스트 행 및 다음 텍스트 행을 포함하며, 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는지 여부를 상기 실시예 중 제기된 제1 예측 평균 행 높이 및 다음 텍스트 행의 초기 예측 행 높이를 통해 결정하지 못할 경우, 상기 제1 텍스트 행의 초기 예측 행 높이가 제1 예측 평균 행 높이에 근접하지만, 다음 행의 텍스트 행의 초기 예측 행 높이보다 큰 경우가 발생될 수 있으며, 이때, 제1 텍스트 행의 초기 예측 행 높이와 이전 텍스트 행 및 다음 텍스트 행의 초기 예측 행 높이 사이의 관계를 통해 행수가 잘못 인식된 것인지 여부와, 두 개의 텍스트 행을 하나의 제1 텍스트 행으로 잘못 인식하였는지를 확인할 수 있으며, 제1 텍스트 행의 초기 예측 행 높이가 제1 텍스트 행의 이전 텍스트 행 및 다음 텍스트 행의 초기 예측 행 높이의 제2 기설정된 배수(예를 들어, 2 배에 근접하는 것 등)에 도달하면, 행수가 잘못 인식된 것으로 확인할 수 있으며, 이때 이전 텍스트 행 및 다음 텍스트 행의 초기 예측 행 높이를 통해 제1 텍스트 행의 행 높이를 수정하며; 수정하는 과정은,
제1 텍스트 행의 이전 텍스트 행 및 다음 텍스트 행의 초기 예측 행 높이의 평균값을 취하여, 제3 예측 평균 행 높이를 획득하는 단계; 및
제3 예측 평균 행 높이를 제1 텍스트 행의 타겟 예측 행 높이로 사용하는 단계를 포함한다.
타겟 예측 행 높이를 획득하는 공식은, 타겟 예측 행 높이=(이전 텍스트 행 높이+다음 텍스트 행 높이)/2 일 수 있다. 일부 실시예에 있어서, 상기 방법은, 제3 평균 행 높이 및 제1 텍스트 행의 하부 경계에 기반하여 제1 텍스트 행의 상부 경계를 결정하는 단계를 더 포함한다. 즉, 제1 텍스트 행 상부 경계=제1 텍스트 행 하부 경계-타겟 예측 행 높이이다.
일부 실시예에 있어서, 단계 504 후,
제1 텍스트 행의 수정된 행 높이가 제2 기설정된 값보다 크거나 같은 것에 응답하여, 제1 텍스트 행의 다음 텍스트 행의 초기 예측 행 높이를 제1 텍스트 행의 타겟 예측 행 높이로 사용하는 단계; 및
제1 텍스트 행의 수정된 행 높이가 제3 기설정된 값보다 작은 것에 응답하여, 제1 텍스트 행의 수정행 높이를 제1 텍스트 행의 타겟 예측 행 높이로 사용하는 단계 중 적어도 하나를 더 포함한다.
상기 실시예 중 제1 텍스트 행의 초기 예측 행 높이가 수정된 후, 또한 수정된 행 높이가 표준 행 높이보다 여전히 큰 경우가 존재할 수 있으며, 예를 들어, 본 발명의 실시예에서 제공한 수정된 행 높이가 제2 기설정된 값(예를 들어, 22 픽셀)보다 크거나 같으면, 이때, 제1 텍스트 행의 행 높이에 여전히 문제가 존재한 것을 설명하고, 제1 텍스트 행이 첫 번째 행이 아닌 경우에, 다음 텍스트 행의 초기 예측 행 높이를 제1 텍스트 행의 타겟 예측 행 높이로 사용하며; 수정된 행 높이가 표준 행 높이에 근접하면, 예를 들어, 본 발명의 실시예에서의 수정된 행 높이가 제3 기설정된 값보다 작으면, 이때 수정된 행 높이를 제1 텍스트 행의 타겟 예측 행 높이로 사용한다.
일부 실시예에 있어서, 단계 330은, 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 타겟 예측 위치에 대응되는 타겟 예측 행 높이에 기반하여, 적어도 하나의 타겟 텍스트 영역 중 제3 텍스트 영역의 초기 예측 위치를 수정하여, 제3 텍스트 영역의 타겟 예측 위치를 획득하는 단계; 및 상기 제3 텍스트 영역의 타겟 예측 위치에 기반하여, 상기 제3 텍스트 영역의 텍스트 인식 결과를 획득하는 단계를 포함한다.
본 발명의 실시예에서 제1 텍스트 영역 중 각 텍스트 행의 행 높이가 수정된 타겟 예측 행 높이이고, 일부 실시예에 있어서, 제3 텍스트 영역(예를 들어, 신분증 이미지에서의 이름 필드)에 의해 획득된 초기 예측 행 높이가 비정상일 경우(예를 들어, 설정된 행 높이 또는 설정된 행 높이와의 차이값이 기설정된 값보다 큰 것 등), 일부 실시예에 있어서, 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 타겟 예측 행 높이에 기반하여, 제1 텍스트 영역의 제3 예측 평균 행 높이를 결정하고; 제3 예측 평균 행 높이 및 제3 텍스트 영역의 초기 예측 위치에 대응되는 초기 예측 행 높이에 기반하여, 제3 텍스트 영역의 초기 예측 위치를 수정하여, 제3 텍스트 영역의 최종 예측 위치를 획득한다. 본 예에 있어서, 제1 텍스트 영역의 각 텍스트 행의 타겟 예측 행 높이의 평균값을 구하는 것에 기반하여 제1 텍스트 영역의 제3 예측 평균 행 높이를 획득할 수 있고, 상기 평균 행 높이로 제3 텍스트 영역의 행 높이를 수정하며, 일부 실시예에 있어서, 수정 방법은 제3 텍스트 영역 중 텍스트 행의 행 높이를 상기 제3 예측 평균 행 높이로 대안하는 방법일 수 있다.
일부 실시예에 있어서, 제1 텍스트 영역 문자에 의해 검출된 각 행의 정보를 판독하고, 각 행의 행 높이가 정상이며, 이상이 존재하는 높이가 발생되지 않으면, 제1 텍스트 영역의 평균 행 높이를 기록하여, 제3 텍스트 영역 중 텍스트 행의 행 높이를 교정한다. 교정 규칙은, 제3 텍스트 영역 중 텍스트 행의 행 높이-제1 텍스트 영역의 제3 예측 평균 행 높이> 2 픽셀(pixels)이면, 제3 텍스트 영역 중 텍스트 행의 행 높이를 제1 텍스트 영역의 제3 예측 평균 행 높이로 수정하는 것을 포함할 수 있다.
일부 실시예에 있어서, 증명서가 신분증을 포함하는 것; 및 제1 텍스트 영역이 주소 영역을 포함하는 것 중 적어도 하나이다.
구체적인 응용 예에 있어서, 본 발명의 실시예에서 제공한 증명서 인식 방법을 소수 민족 신분증에 대한 인식에 적용하며, 도 7은 본 발명의 실시예에서 제공한 증명서 인식 방법의 응용 예시도이다.
단계 710에 있어서, 소수 민족 신분증의 증명서 이미지에 대해 키 포인트 검출을 수행하여, 소수 민족 신분증의 24 개 포인트의 키 포인트의 정보를 획득하고, 상기 24 개 포인트의 키 포인트는 주소 필드 정보 영역의 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트를 포함하며, 상기 주소 필드 정보 영역은 복수 개의 한자에 대응되는 텍스트 행을 포함한다.
단계 720에 있어서, 왼쪽 상단 키 포인트 및 오른쪽 하단 키 포인트를 통해 주소 필드 정보 영역을 결정하고, 신경 네트워크 등 수단을 통해 인식하여 주소 필드 정보 영역에 포함된 텍스트 행의 행수 및 각 텍스트 행의 행 높이를 획득한다.
단계 730에 있어서, 각 텍스트 행의 행 높이가 정상인지 여부를 판단하고(예를 들어, 빅 데이터에 의해 통계된 신분증 행 높이와의 차이값이 설정된 값보다 작음), 각 텍스트 행의 행 높이가 모두 정상이면, 단계 750을 실행하고, 그렇지 않은 경우, 단계 740을 실행한다.
단계 740에 있어서, 인식하여 획득된 주소 필드 정보 영역의 텍스트 행의 개수가 3 행보다 크고 그 중 하나 또는 복수 개의 텍스트 행(일반적으로 하나의 텍스트 행임)의 높이에 이상이 존재하면, 높이에 이상이 존재하는 텍스트 행의 높이를 수정하여, 수정된 주소 필드 정보 영역 중 텍스트 행의 평균 행 높이를 획득한다. 일부 실시예에 있어서, 소수 민족 문자가 한자 상부에 위치하므로, 이때의 수정 방법은 이전 N-1 행만 수정하고, 마지막 행을 수정하지 않으며, N은 주소 필드 정보 영역에 포함된 텍스트 행의 개수를 나타낸다.
단계 750에 있어서, 주소 필드 정보 영역 중 텍스트 행의 평균 행 높이(avg_h_addr)를 기록하고, 이름 필드 정보 영역의 행 높이(h_name)를 교정한다. 여기서, 교정 규칙은, h_name - avg_h_addr > 2 픽셀(pixels)이면, 이름 필드 정보 영역의 행 높이(h_name)를 주소 필드의 평균 행 높이(avg_h_addr)로 수정한다.
단계 760에 있어서, 주소 필드 정보 영역 중 텍스트 행의 평균 행 높이에 기반하여 주소 필드 정보 영역 중 각 텍스트 행의 한자 내용을 인식하여, 소수 민족 신분증에서의 주소 정보를 획득하고, 교정된 이름 필드 정보 영역의 행 높이에 기반하여 이름 필드 정보 영역에서의 한자 내용을 인식하여, 소수 민족 신분증에서의 이름 정보를 획득하고, 소수 민족 신분증의 인식을 구현한다.
도 8은 본 발명의 실시예에서 제공한 증명서 인식 방법의 다른 응용 예시도이다. 상기 단계 740에서 제공한 행 높이 수정 방법을 통해 소수 민족 신분증 중 주소 필드 정보 영역에서 복수 개의 텍스트 행에 대해 위로부터 아래로(예를 들어, 첫 번째 행부터 N-1 번째 행) 수정 동작을 순차적으로 수행하며, 일부 실시예에 있어서, 수정 과정은 아래와 같은 단계를 포함한다.
단계 802에 있어서, 주소 필드 정보 영역이 위치하는 직사각형 박스의 상하부 경계 및 행수를 통해 획득하는 것은, 소수 민족 신분증 중 주소 필드 정보 영역 중 텍스트 행의 평균 행 높이를 계산하여 획득하고; 현재 행의 행 높이, 및 다음 행의 행 높이를 검출하여 획득한다.
단계 804에 있어서, 현재 행의 행 높이가 다음 행의 행 높이의 1.2배(이는 설정값이고, 상이한 경우에 따라 설정될 수 있음)보다 크거나 같은지 여부와, 평균 행 높이의 1.2 배(이는 설정값이고, 상이한 경우에 따라 설정될 수 있음)보다 크거나 같은지를 판단하고, 크거나 같으면, 현재 행의 행 높이에 이상이 존재하는 것으로 결정하며, 단계 806을 실행하며, 그렇지 않은 경우, 단계 808을 실행한다.
단계 806에 있어서, 인식에 따라 현재 행의 하부 경계를 결정하고, 현재 행의 하부 경계와 다음 행의 상부 경계가 교차되면, 다음 행의 문자가 현재 행에 영향을 미치는 것을 방지하기 위해, 현재 행의 하부 경계를 수정한다. 이때, 현재 행의 하부 경계 = 다음 행의 상부 경계 - 1 pixel이다. 또한 현재 행의 행 높이를 수정하고, 현재 높이는 이론적으로 현재 행의 행 높이를 나눈 후 다른 행(주소 필드 중 현재 행의 모든 텍스트 행 이외)의 행 높이의 평균값(new_h_avg_line)이고, new_h_avg_line이 15 pixels(이는 선택 가능한 값이고, 빅 데이터를 통해 통계하여 획득될 수 있음)보다 크면, 이때 검출된 현재 행이 실제 소수 민족 신분증 주소 필드의 한 행이 아니고, 오검출이 생성된 후, 두 개의 행을 한 행으로 병합한 결과임을 설명하며, 이때 현재 행의 행 높이를 15 pixels로 설정하면 되고, new_h_avg_line이 15 pixels보다 작거나 같으면, 현재 행의 행 높이를 new_h_avg_line로 설정하며, 현재 행의 수정된 행 높이를 획득하며, 단계 810을 실행한다.
단계 808에 있어서, 현재 행의 행 높이가 평균 행 높이(예를 들어, 현재 행의 행 높이는 주소 필드 정보 영역의 높이에 행수를 나눈 것과 같음)에 근접한 것으로 검출되면, 이때 현재 행의 행 높이 및 현재 행에 인접한 두 개 행의 행 높이 사이에 높이 차이가 존재하는 것으로 판단하며, 현재 행의 행 높이가 다음 행의 행 높이의 1.8 배(이는 설정된 값이고, 상이한 경우에 따라 설정될 수 있음)보다 크고 이전 행의 행 높이의 1.8 배보다 크면, 현재 행의 상하부 경계를 수정하고, 수정 공식은, 현재 행의 수정행 높이=(이전 행의 행 높이+다음 행의 행 높이)/2이며, 단계 810을 실행한다.
상기 단계에서 발생된 경우에 대응되는 것은 실제 소수 민족 신분증 주소 필드에 4 개의 행이 있으면, 3 개의 행이 실제 검출된 경우일 수 있다.
단계 810에 있어서, 현재 행의 수정된 행 높이가 22 pixels(이는 선택 가능한 값이고, 빅 데이터를 통해 통계하여 획득될 수 있음)보다 큰지 여부를 판단하고, 현재 행의 수정된 행 높이가 22 pixels보다 크면, 단계 812를 실행하고, 그렇지 않은 경우, 현재 행의 수정된 행 높이를 현재 행의 타겟 행 높이로 사용하며, 단계 814를 실행한다.
단계 812에 있어서, 현재 행이 첫 번째 행이 아닌 경우, 다음 행의 행 높이를 현재 행의 타겟 행 높이로 사용하며, 단계 814를 실행한다.
단계 814에 있어서, 현재 행의 상부 경계를 수정한다. 수정 규칙은, 현재 행의 상부 경계=현재 행의 하부 경계-현재 행의 타겟 행 높이이다.
본 기술분야의 통상의 기술자는 상기 방법의 실시예를 구현하기 위한 전부 또는 일부 단계가 프로그램 명령어에 관련된 하드웨어를 통해 완료되며, 전술한 프로그램이 컴퓨터 판독 가능한 저장 매체에 저장될 수 있으며, 상기 프로그램이 실행될 경우, 상기 방법의 실시예를 포함하는 단계를 실행하며; 전술한 저장 매체는 판독 전용 메모리(Read Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크와 같은 프로그램 코드를 저장할 수 있는 다양한 매체를 포함하는 것을 이해할 수 있을 것이다.
도 9는 본 발명의 실시예에서 제공한 증명서 인식 장치의 구조 예시도이다. 상기 장치는 본 발명의 상기 각 방법 실시예를 구현하는데 사용될 수 있다. 도 9에 도시된 바와 같이, 상기 증명서 인식 장치는 아래와 같은 유닛을 포함한다.
키 포인트 검출 유닛(91)에 있어서, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하기 위한 것이다.
여기서, 복수 개의 키 포인트는 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함된다.
텍스트 인식 유닛(92)에 있어서, 복수 개의 키 포인트의 정보에 기반하여, 증명서의 텍스트 인식 결과를 결정하기 위한 것이다.
본 발명의 상기 실시예에서 제공한 증명서 인식 장치에 기반하여, 상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하고, 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 추가하는 것을 통해, 제1 텍스트 영역 중 여러 행의 텍스트의 텍스트 위치에 대한 인식 정확률을 향상시킴에 있어서 유리하며, 다른 캐릭터 타입이 제1 캐릭터 타입의 텍스트에 대한 인식에 의한 영향을 감소시키며, 증명서 중 제1 캐릭터 타입 내용에 대한 인식 정확률을 향상시킨다.
일부 실시예에 있어서, 증명서는 제2 텍스트 영역을 더 포함하고, 여기서, 제2 텍스트 영역은 제1 캐릭터 타입과 상이한 제2 캐릭터 타입에 대응되는 적어도 하나의 텍스트 행을 포함하며, 제2 텍스트 영역은 제1 텍스트 영역의 텍스트 내용과 동일하다.
일부 실시예에 있어서, 제1 캐릭터 타입은 한자이고, 제2 캐릭터 타입은 소수 민족 문자이다.
하나 또는 복수 개의 실시예에 있어서, 텍스트 인식 유닛(92)은,
상기 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치를 결정하기 위한 위치 예측 모듈; 및
상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치에 기반하여, 상기 증명서에 포함된, 상기 제1 캐릭터 타입에 대응되는 적어도 하나의 타겟 텍스트 영역을 인식하여, 상기 증명서의 텍스트 인식 결과를 획득하기 위한 텍스트 인식 모듈을 포함한다.
일부 실시예에 있어서, 상기 위치 예측 모듈은, 상기 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 초기 예측 위치를 결정하고; 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는지 여부를 결정하며; 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 초기 예측 위치에 대해 수정 처리를 수행하여, 상기 복수 개의 텍스트 행의 타겟 예측 위치를 획득하기 위한 것이다.
일부 실시예에 있어서, 상기 위치 예측 모듈은,
대응되는 초기 예측 행 높이가 제1 기설정된 행 높이보다 큰 텍스트 행이 상기 복수 개의 텍스트 행에 존재하는 것에 응답하여, 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정하기 위한 위치 예측 모듈을 포함한다.
일부 실시예에 있어서, 상기 위치 예측 모듈은,
상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 영역 중 초기 예측 행 높이에 이상이 존재하는 텍스트 행을 결정하고; 상기 제1 텍스트 영역 중 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 상기 제1 텍스트 행의 타겟 예측 행 높이를 획득하며; 상기 제1 텍스트 행의 타겟 예측 행 높이에 기반하여 상기 제1 텍스트 행의 초기 예측 위치를 수정하여, 상기 제1 텍스트 행의 타겟 예측 위치를 획득하기 위한 위치 예측 모듈을 포함한다.
일부 실시예에 있어서, 상기 위치 예측 모듈은, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 제1 예측 평균 행 높이 및 상기 제1 텍스트 행의 초기 예측 행 높이에 기반하여, 상기 복수 개의 텍스트 행 중 상기 제1 텍스트 행 이외의 적어도 하나의 제2 텍스트 행의 제2 예측 평균 행 높이를 결정하고, 상기 제2 예측 평균 행 높이에 기반하여, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정하기 위한 것이다.
일부 실시예에 있어서, 상기 위치 예측 모듈은, 상기 제2 예측 평균 행 높이가 제1 기설정된 값보다 큰 것에 응답하여, 상기 제1 텍스트 행의 행 높이를 제2 기설정된 값으로 수정하는 것; 및 상기 제2 예측 평균 행 높이가 상기 제2 기설정된 값보다 작거나 같은 것에 응답하여, 상기 제1 텍스트 행의 행 높이를 상기 제2 예측 평균 행 높이로 수정하는 것 중 적어도 하나를 수행하기 위한 것이다.
일부 실시예에 있어서, 상기 위치 예측 모듈은, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 상기 제1 텍스트 행의 수정된 행 높이를 획득하고; 상기 제1 텍스트 행의 수정된 행 높이가 제2 기설정된 값보다 크거나 같은 것에 응답하여, 상기 제1 텍스트 행의 다음 텍스트 행의 초기 예측 위치에 대응되는 초기 예측 행 높이를 상기 제1 텍스트 행의 타겟 예측 행 높이로 사용하는 것, 및 상기 제1 텍스트 행의 수정된 행 높이가 제3 기설정된 값보다 작은 것에 응답하여, 상기 제1 텍스트 행의 수정된 행 높이를 상기 제1 텍스트 행의 타겟 예측 행 높이로 사용하는 것 중 적어도 하나를 수행하기 위한 것이다.
일부 실시예에 있어서, 상기 위치 예측 모듈은, 상기 제1 텍스트 행의 타겟 예측 행 높이에 기반하여, 상기 제1 텍스트 행의 초기 예측 위치에 대응되는 예측 상부 경계를 조정하여, 상기 제1 텍스트 행의 타겟 예측 상부 경계를 획득하기 위한 것이다.
일부 실시예에 있어서, 상기 위치 예측 모듈은, 상기 제1 텍스트 영역 중 복수 개의 텍스트 행의 제1 예측 평균 행 높이 및 상기 제1 텍스트 행의 적어도 하나의 서로 인접한 행의 초기 예측 위치에 대응되는 초기 예측 행 높이에서의 적어도 하나에 기반하여, 상기 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는지 여부를 결정하기 위한 것이다.
일부 실시예에 있어서, 상기 위치 예측 모듈은, 상기 제1 텍스트 행의 초기 예측 행 높이가 상기 제1 예측 평균 행 높이의 제1 기설정된 배수에 도달한 것, 및
상기 제1 텍스트 행의 초기 예측 행 높이가 상기 제1 텍스트 행의 적어도 하나의 서로 인접한 행의 초기 예측 행 높이의 제2 기설정된 배수에 도달한 것 중 적어도 하나에 응답하여,
상기 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재한 것으로 결정하기 위한 것이다.
일부 실시예에 있어서, 상기 위치 예측 모듈은 또한, 상기 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보 및 상기 제1 텍스트 영역의 예측 행수에 기반하여, 상기 제1 텍스트 영역 중 복수 개의 텍스트 행의 제1 예측 평균 행 높이를 결정하기 위한 것이다.
일부 실시예에 있어서, 상기 텍스트 인식 모듈은, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 타겟 예측 위치에 대응되는 타겟 예측 행 높이에 기반하여, 상기 적어도 하나의 타겟 텍스트 영역 중 제3 텍스트 영역의 초기 예측 위치를 수정하여, 상기 제3 텍스트 영역의 타겟 예측 위치를 획득하고; 상기 제3 텍스트 영역의 타겟 예측 위치에 기반하여, 상기 제3 텍스트 영역의 텍스트 인식 결과를 획득하기 위한 것이다.
일부 실시예에 있어서, 상기 텍스트 인식 모듈은, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 타겟 예측 행 높이에 기반하여, 상기 제1 텍스트 영역 중 복수 개의 텍스트 행의 타겟 예측 평균 행 높이를 결정하고;
상기 타겟 예측 평균 행 높이 및 상기 제3 텍스트 영역에 포함된 제3 텍스트 행의 초기 예측 위치에 대응되는 초기 예측 행 높이에 기반하여, 상기 제3 텍스트 행의 초기 예측 위치를 수정하여, 상기 제3 텍스트 행의 최종 예측 위치를 획득하기 위한 것이다.
일부 실시예에 있어서, 상기 증명서가 신분증을 포함하는 것; 및
상기 제1 텍스트 영역이 주소 필드 정보 영역을 포함하는 것 중 적어도 하나이다.
본 발명의 실시예의 다른 측면에 따르면, 프로세서를 포함하는 전자 기기를 제공하고, 프로세서는 본 발명에 따른 어느 한 실시예의 증명서 인식 장치를 포함한다.
본 발명의 실시예의 다른 측면에 따르면, 전자 기기를 제공하고, 실행 가능한 명령어를 저장하기 위한 메모리; 및
실행 가능한 명령어를 실행하기 위해 메모리와 통신함으로써 본 발명에서 제공한 증명서 인식 방법에 따른 어느 한 실시예를 완료하기 위한 프로세서를 포함한다.
본 발명의 실시예의 다른 측면에 따르면, 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 저장 매체를 제공하고, 명령어가 프로세서에 의해 실행될 경우, 상기 프로세서는 본 발명에서 제공한 증명서 인식 방법에 따른 어느 한 실시예를 실행한다.
본 발명의 실시예의 다른 측면에 따르면, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램을 제공하고, 컴퓨터 판독 가능한 코드가 기기에서 작동될 경우, 기기에서의 프로세서는 본 발명에서 제공한 증명서 인식 방법을 실행한다.
본 발명의 실시예의 또 다른 측면에 따르면, 컴퓨터 판독 가능 명령어를 저장하기 위한 컴퓨터 프로그램 제품을 제공하고, 상기 명령어가 실행될 경우, 컴퓨터로 하여금 상기 어느 한 가능한 구현 방식에 따른 증명서 인식 방법을 실행하도록 한다.
하나 또는 복수 개의 선택 가능한 실시형태에 있어서, 본 발명의 실시예는 또한 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 프로그램 프로그램 제품을 제공하고, 상기 명령어가 실행될 경우 컴퓨터로 하여금 상기 어느 한 실시예에 따른 증명서 인식 방법을 실행하도록 한다.
상기 컴퓨터 프로그램 제품은 구체적으로 하드웨어, 소프트웨어 또는 이들의 조합을 통해 구현될 수 있다. 선택 가능한 예에 있어서, 상기 컴퓨터 프로그램 제품은 컴퓨터 저장 매체로서 구체적으로 구현되며, 다른 선택 가능한 예에 있어서, 상기 컴퓨터 프로그램 제품은 소프트웨어 개발 키트(Software Development Kit, SDK) 등과 같은 소프트웨어 제품으로서 구체적으로 구현된다.
본 발명의 실시예에 따라 또한 다른 증명서 인식 방법 및 이에 대응되는 장치 및 전자 기기, 컴퓨터 저장 매체, 컴퓨터 프로그램 및 컴퓨터 프로그램 제품을 제공하고, 여기서, 상기 방법은, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하며, 여기서, 복수 개의 키 포인트는 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함되며; 복수 개의 키 포인트의 정보에 기반하여, 증명서의 텍스트 인식 결과를 결정한다.
일부 실시예에 있어서, 상기 타겟 추적 지시는 호출 명령어일 수 있으며, 제1 장치는 호출을 통해 제2 장치가 증명서 인식을 실행하도록 지시할 수 있으며, 상응하게, 호출 명령어를 수신한 것에 응답하여, 제2 장치는 상기 증명서 인식 방법의 실시예 중 어느 한 단계 및 프로세스 중 적어도 하나를 실행할 수 있다.
이해해야 할 것은, 본 발명의 실시예에서 "제1", "제2" 등 용어들은 다만 구별을 위해 사용되며, 본 발명의 실시예들에 대한 한정으로서 이해되지 않아야 한다.
더 이해해야 할 것은, 본 발명에서, "복수 개의"는 두 개 이상을 의미할 수 있고, "적어도 하나"는 하나 또는 두 개 이상을 의미할 수 있다.
또한 이해해야 할 것은, 본 발명에서 언급된 임의의 컴포넌트, 데이터 또는 구조에 대해 문맥상 명백한 한정이 없거나 반대 동기가 없는 경우, 일반적으로 하나 또는 복수 개로 이해될 수 있다.
더 이해해야 할 것은, 본 발명은 각 실시예에 대해 각 실시예 사이의 차이점에 초점을 맞추고, 그 동일하거나 유사한 부분은 서로 참조할 수 있으며, 간결함을 위해, 더이상 반복하여 설명하지 않는다.
본 발명의 실시예는 또한 이동 단말, 개인용 컴퓨터(PC), 태블릿 컴퓨터, 서버와 같은 전자 기기를 제공한다. 아래에 도 10을 참조하면, 본 발명의 실시예에 따른 단말 기기 또는 서버를 구현하기에 적절한 전자 기기(1000)의 구조 예시도이며, 도 10에 도시된 바와 같이, 전자 기기(1000)는 하나 또는 복수 개의 프로세서, 통신부 등을 포함하며, 상기 하나 또는 복수 개의 프로세서는, 예를 들어, 하나 또는 복수 개의 중앙 처리 장치(CPU)(1001), 및 하나 또는 복수 개의 그래픽 처리 장치(GPU)(1013) 중 적어도 하나이며, 프로세서는 판독 전용 메모리(ROM)(1002)에 저장된 실행 가능한 명령어 또는 저장 부분(1008)으로부터 랜덤 액세스 메모리(RAM)(1003)에 로딩된 실행 가능한 명령어에 따라 다양한 적절한 동작 및 처리를 실행할 수 있다. 통신부(1012)는 인피니밴드(Infiniband, IB) 네트워크 카드를 포함하지만 이에 한정되지 않는 네트워크 카드를 포함하지만 이에 한정되지 않는다.
프로세서는 실행 가능한 명령어를 실행하기 위해, 판독 전용 메모리(1002) 및 랜덤 액세스 메모리(1003)와 통신할 수 있으며, 버스(1004)를 통해 통신부(1012)에 연결되고, 통신부(1012)를 통해 다른 타겟 기기와 통신함으로써, 본 발명의 실시예에서 제공한 어느 한 방법에 대응되는 동작을 완료하며, 예를 들어, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하며, 여기서, 복수 개의 키 포인트는 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함되며; 복수 개의 키 포인트의 정보에 기반하여, 증명서의 텍스트 인식 결과를 결정한다.
또한, RAM(1003)에는 장치의 동작에 필요한 다양한 프로그램 및 데이터가 더 저장될 수 있다. CPU(1001), ROM(1002) 및 RAM(1003)은 통신 버스(1004)를 통해 서로 연결된다. RAM(1003)이 존재하는 경우, ROM(1002)은 선택 가능한 모듈이다. RAM(1003)은 실행 가능한 명령어를 저장하고, 또는 작동할 경우, ROM(1002)에 실행 가능한 명령어를 기록하며, 실행 가능한 명령어는 프로세서(1001)로 하여금 상기 통신 방법에 대응되는 동작을 실행하도록 한다. 입력/출력(I/O) 인터페이스(1005)도 버스(1004)에 연결된다. 통신부(1012)는 통합될 수 있거나, 버스에 연결된 복수 개의 서브 모듈(예를 들어 복수 개의 IB 랜 카드)을 갖도록 구성될 수 있다.
다음의 부재, 즉 키보드, 마우스 등을 포함하는 입력 부분(1006); 음극 선관(Cathode Ray Tube, CRT), 액정 디스플레이(LCD), 스피커 등을 포함하는 출력 부분(1007); 하드웨어 등을 포함하는 저장 부분(1008); 및 LAN 카드, 모뎀 등을 포함하는 네트워크 인터페이스의 통신 인터페이스(1009)는 I/O 인터페이스(1005)에 연결된다. 통신 부분(1009)은 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 드라이버(1010)는 필요에 따라 I/O 인터페이스(1005)에 연결될 수도 있다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 탈착 가능한 매체(1011)는 필요에 따라 저장 부분(1008)에 설치된 컴퓨터 프로그램을 판독할 수 있도록 필요에 따라 드라이버(1010)에 설치된다.
설명해야 할 것은, 도 10에 도시된 아키텍쳐는 다만 선택적인 구현 방식일 뿐, 구체적인 실천 과정에서, 상기 도 10의 부재의 개수 및 타입은 실제 필요에 따라 선택, 감소, 증가 또는 교체되며; 상이한 기능적 부재 설치에서 분리 설치되는 것이거나 통합 설치되는 것 등 구현 방식을 사용할 수 있으며, 예를 들어 GPU 및 CPU는 분리 설치되거나 GPU가 CPU에 통합되며, 통신부는 CPU 또는 GPU에 분리 설치 또는 통합 설치될 수 있는 등이다. 이들 대안적인 실시 형태는 모두 본 발명에 개시된 보호 범위에 속한다.
특히, 본 발명의 실시예에 따른 흐름도를 참조하여 설명된 과정은 컴퓨터 소프트웨어 프로그램에 의해 구현된다. 예를 들어, 본 발명의 실시예는 컴퓨터 프로그램 제품을 제공하고, 기계 판독 가능한 매체에 포함된 컴퓨터 프로그램을 유형적으로 포함하며, 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함하며, 프로그램 코드는 본 발명의 실시예에서 제공한 방법 단계를 대응되게 실행하는 대응되는 명령어를 포함하며, 예를 들어, 증명서 이미지에 대해 키 포인트 검출을 수행하여, 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하며, 여기서, 복수 개의 키 포인트는 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함되며; 복수 개의 키 포인트의 정보에 기반하여, 증명서의 텍스트 인식 결과를 결정한다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신 부분(1009)을 통해 네트워크로부터 다운로드 및 설치될 수 있는 것 및 탈착 가능한 매체(1011)로부터 설치될 수 있는 것 중 적어도 하나이다. 본 발명의 방법에서 정의한 상기 기능은 상기 컴퓨터 프로그램은 중앙 처리 장치(CPU)(1001)에 의해 실행될 경우에 실행된다.
본 발명의 방법과 장치는 많은 방식으로 구현된다. 예를 들어, 본 발명의 방법과 장치는 소프트웨어, 하드웨어, 펌웨어 또는 소프트웨어, 하드웨어, 펌웨어의 임의의 조합으로 구현될 수 있다. 달리 구체적으로 언급되지 않는 한, 상기 방법의 상기 단계의 상기 구체적인 순서는 다만 설명을 위한 것이며, 본 발명의 방법의 단계를 한정하려는 것은 아니다. 또한, 일부 실시예에 있어서, 본 발명은 기록 매체에 기록된 프로그램으로서 구현될 수도 있으며, 이들 프로그램은 본 발명의 방법을 구현하기 위한 기계 판독 가능한 명령어를 포함한다. 따라서, 본 발명은 본 발명에 따른 방법들을 실행하기 위한 프로그램을 저장하는 기록 매체를 더 포함한다.
본 발명의 설명은 예 및 설명의 목적으로 제공되며, 누락되지 않거나 본 발명을 개시된 형태로 한정하려는 것은 아니다. 많은 수정과 변경이 본 기술분야의 통상의 기술자에게 자명하다. 실시예들은 본 발명의 원리 및 실제 적용을 더 잘 설명하고, 본 기술분야의 통상의 기술자로 하여금 특정 사용에 적용 가능한 다양한 수정들을 갖는 다양한 실시예들을 설계하기 위해 본 발명을 이해하도록 하기 위해 선택되고 설명된다.

Claims (37)

  1. 증명서 인식 방법으로서,
    증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하는 단계 - 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함됨 - ;
    상기 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치를 결정하는 단계;
    상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는지 여부를 결정하는 단계;
    상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 영역 중 초기 예측 행 높이에 이상이 존재하는 텍스트 행을 결정하는 단계;
    상기 제1 텍스트 영역 중 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 상기 제1 텍스트 행의 타겟 예측 행 높이를 획득하는 단계;
    상기 제1 텍스트 행의 타겟 예측 행 높이에 기반하여 상기 제1 텍스트 행의 초기 예측 위치를 수정하여, 상기 제1 텍스트 행의 타겟 예측 위치를 획득하는 단계; 및
    상기 제1 텍스트 영역의 타겟 예측 위치에 기반하여, 상기 증명서에 포함된, 상기 제1 캐릭터 타입에 대응되는 적어도 하나의 타겟 텍스트 영역을 인식하여, 상기 증명서의 텍스트 인식 결과를 결정하는 단계를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  2. 제1항에 있어서,
    상기 증명서는 제2 텍스트 영역을 더 포함하고, 상기 제2 텍스트 영역은 상기 제1 캐릭터 타입과 상이한 제2 캐릭터 타입에 대응되는 적어도 하나의 텍스트 행을 포함하며, 상기 제2 텍스트 영역은 상기 제1 텍스트 영역의 텍스트 내용과 동일한 것을 특징으로 하는 증명서 인식 방법.
  3. 제2항에 있어서,
    제1 캐릭터 타입은 한자이고, 상기 제2 캐릭터 타입은 소수 민족 문자인 것을 특징으로 하는 증명서 인식 방법.
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는지 여부를 결정하는 단계는,
    대응되는 초기 예측 행 높이가 제1 기설정된 행 높이보다 큰 텍스트 행이 상기 복수 개의 텍스트 행에 존재하는 것에 응답하여, 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정하는 단계를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  7. 삭제
  8. 제1항에 있어서,
    상기 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 상기 제1 텍스트 행의 타겟 예측 행 높이를 획득하는 단계는,
    상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 제1 예측 평균 행 높이 및 상기 제1 텍스트 행의 초기 예측 행 높이에 기반하여, 상기 복수 개의 텍스트 행 중 상기 제1 텍스트 행 이외의 적어도 하나의 제2 텍스트 행의 제2 예측 평균 행 높이를 결정하는 단계; 및
    상기 제2 예측 평균 행 높이에 기반하여, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정하는 단계를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  9. 제8항에 있어서,
    상기 제2 예측 평균 행 높이에 기반하여, 상기 제1 텍스트 행의 초기 예측 행 높이를 수정하는 단계는,
    상기 제2 예측 평균 행 높이가 제1 기설정된 값보다 큰 것에 응답하여, 상기 제1 텍스트 행의 행 높이를 제2 기설정된 값으로 수정하는 단계; 및
    상기 제2 예측 평균 행 높이가 상기 제2 기설정된 값보다 작거나 같은 것에 응답하여, 상기 제1 텍스트 행의 행 높이를 상기 제2 예측 평균 행 높이로 수정하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  10. 제8항 또는 제9항에 있어서,
    상기 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 상기 제1 텍스트 행의 타겟 예측 행 높이를 획득하는 단계는,
    상기 제1 텍스트 행의 초기 예측 행 높이를 수정하여, 상기 제1 텍스트 행의 수정된 행 높이를 획득하는 단계;
    상기 제1 텍스트 행의 수정된 행 높이가 제2 기설정된 값보다 크거나 같은 것에 응답하여, 상기 제1 텍스트 행의 다음 텍스트 행의 초기 예측 위치에 대응되는 초기 예측 행 높이를 상기 제1 텍스트 행의 타겟 예측 행 높이로 사용하는 단계; 및
    상기 제1 텍스트 행의 수정된 행 높이가 제3 기설정된 값보다 작은 것에 응답하여, 상기 제1 텍스트 행의 수정된 행 높이를 상기 제1 텍스트 행의 타겟 예측 행 높이로 사용하는 단계 중 적어도 하나를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  11. 제8항 또는 제9항에 있어서,
    상기 제1 텍스트 행의 타겟 예측 행 높이에 기반하여 상기 제1 텍스트 행의 초기 예측 위치를 수정하여, 상기 제1 텍스트 행의 타겟 예측 위치를 획득하는 단계는,
    상기 제1 텍스트 행의 타겟 예측 행 높이에 기반하여, 상기 제1 텍스트 행의 초기 예측 위치에 대응되는 예측 상부 경계를 조정하여, 상기 제1 텍스트 행의 타겟 예측 상부 경계를 획득하는 단계를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  12. 제8항 또는 제9항에 있어서,
    상기 제1 텍스트 영역 중 초기 예측 행 높이에 이상이 존재하는 텍스트 행을 결정하는 단계는,
    상기 제1 텍스트 영역 중 복수 개의 텍스트 행의 제1 예측 평균 행 높이 및 상기 제1 텍스트 행의 적어도 하나의 서로 인접한 행의 초기 예측 위치에 대응되는 초기 예측 행 높이에서의 적어도 하나에 기반하여, 상기 제1 텍스트 행의 초기 예측 행 높이에 이상이 존재하는지 여부를 결정하는 단계를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  13. 제1항에 있어서,
    상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치에 기반하여, 상기 증명서에 포함된, 상기 제1 캐릭터 타입에 대응되는 적어도 하나의 타겟 텍스트 영역을 인식하는 단계는,
    상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 타겟 예측 위치에 대응되는 타겟 예측 행 높이에 기반하여, 상기 적어도 하나의 타겟 텍스트 영역 중 제3 텍스트 영역의 초기 예측 위치를 수정하여, 상기 제3 텍스트 영역의 타겟 예측 위치를 획득하는 단계; 및
    상기 제3 텍스트 영역의 타겟 예측 위치에 기반하여, 상기 제3 텍스트 영역의 텍스트 인식 결과를 획득하는 단계를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  14. 제13항에 있어서,
    상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 타겟 예측 위치에 대응되는 타겟 예측 행 높이에 기반하여, 상기 적어도 하나의 타겟 텍스트 영역 중 제3 텍스트 영역의 초기 예측 위치를 수정하여, 상기 제3 텍스트 영역의 타겟 예측 위치를 획득하는 단계는,
    상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 타겟 예측 행 높이에 기반하여, 상기 제1 텍스트 영역 중 복수 개의 텍스트 행의 타겟 예측 평균 행 높이를 결정하는 단계; 및
    상기 타겟 예측 평균 행 높이 및 상기 제3 텍스트 영역에 포함된 제3 텍스트 행의 초기 예측 위치에 대응되는 초기 예측 행 높이에 기반하여, 상기 제3 텍스트 행의 초기 예측 위치를 수정하여, 상기 제3 텍스트 영역의 최종 예측 위치를 획득하는 단계를 포함하는 것을 특징으로 하는 증명서 인식 방법.
  15. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 증명서가 신분증을 포함하는 것; 및
    상기 제1 텍스트 영역이 주소 필드 정보 영역을 포함하는 것 중 적어도 하나를 특징으로 하는 증명서 인식 방법.
  16. 증명서 인식 장치로서,
    증명서 이미지에 대해 키 포인트 검출을 수행하여, 상기 증명서 이미지에 포함된 증명서의 복수 개의 키 포인트의 정보를 획득하기 위한 키 포인트 검출 유닛 - 상기 복수 개의 키 포인트는 상기 증명서 중 제1 텍스트 영역의 적어도 두 개의 경계 한계점을 포함하고, 상기 제1 텍스트 영역에는 제1 캐릭터 타입에 대응되는 복수 개의 텍스트 행이 포함됨 - ; 및
    상기 복수 개의 키 포인트의 정보에 기반하여, 상기 증명서의 텍스트 인식 결과를 결정하기 위한 텍스트 인식 유닛을 포함하고,
    상기 텍스트 인식 유닛은,
    상기 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치를 결정하기 위한 위치 예측 모듈; 및
    상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 타겟 예측 위치에 기반하여, 상기 증명서에 포함된, 상기 제1 캐릭터 타입에 대응되는 적어도 하나의 타겟 텍스트 영역을 인식하여, 상기 증명서의 텍스트 인식 결과를 획득하기 위한 텍스트 인식 모듈을 포함하고;
    상기 위치 예측 모듈은 또한, 상기 제1 텍스트 영역의 적어도 두 개의 경계 한계점의 정보에 기반하여, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행 중 각 텍스트 행의 초기 예측 위치를 결정하고; 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는지 여부를 결정하며; 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정한 것에 응답하여, 상기 제1 텍스트 영역에 포함된 복수 개의 텍스트 행의 초기 예측 위치에 대해 수정 처리를 수행하여, 상기 복수 개의 텍스트 행의 타겟 예측 위치를 획득하기 위한 것이며,
    상기 위치 예측 모듈은 또한, 대응되는 초기 예측 행 높이가 제1 기설정된 행 높이보다 큰 텍스트 행이 상기 복수 개의 텍스트 행에 존재하는 것에 응답하여, 상기 복수 개의 텍스트 행의 초기 예측 위치에 이상이 존재하는 것으로 결정하기 위한 것을 특징으로 하는 증명서 인식 장치.
  17. 전자 기기로서,
    실행 가능한 명령어를 저장하기 위한 메모리; 및
    상기 실행 가능한 명령어를 실행하기 위해 상기 메모리와 통신함으로써 제1항 내지 제3항, 제6항, 제8항, 제9항, 제13항, 제14항 중 어느 한 항에 따른 증명서 인식 방법의 동작을 완료하기 위한 프로세서를 포함하는 것을 특징으로 하는 전자 기기.
  18. 컴퓨터 판독 가능한 명령어를 저장하기 위한 컴퓨터 판독 가능한 저장 매체로서,
    상기 명령어가 실행될 경우, 제1항 내지 제3항, 제6항, 제8항, 제9항, 제13항, 제14항 중 어느 한 항에 따른 증명서 인식 방법의 동작을 실행하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  19. 컴퓨터 판독 가능한 저장 매체에 저장되고, 컴퓨터 판독 가능한 코드를 포함하는 컴퓨터 프로그램 제품으로서,
    상기 컴퓨터 판독 가능한 코드가 기기에서 작동될 경우, 상기 기기에서의 프로세서는 제1항 내지 제3항, 제6항, 제8항, 제9항, 제13항, 제14항 중 어느 한 항에 따른 증명서 인식 방법을 구현하기 위한 명령어를 실행하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
KR1020207025083A 2019-04-30 2019-09-26 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체 KR102435365B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910362419.4A CN110321895A (zh) 2019-04-30 2019-04-30 证件识别方法和装置、电子设备、计算机可读存储介质
CN201910362419.4 2019-04-30
PCT/CN2019/108209 WO2020220575A1 (zh) 2019-04-30 2019-09-26 证件识别方法和装置、电子设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
KR20200128015A KR20200128015A (ko) 2020-11-11
KR102435365B1 true KR102435365B1 (ko) 2022-08-23

Family

ID=68113412

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207025083A KR102435365B1 (ko) 2019-04-30 2019-09-26 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체

Country Status (7)

Country Link
US (1) US20200372248A1 (ko)
JP (1) JP7033208B2 (ko)
KR (1) KR102435365B1 (ko)
CN (1) CN110321895A (ko)
SG (1) SG11202007758TA (ko)
TW (1) TW202042105A (ko)
WO (1) WO2020220575A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126125B (zh) * 2019-10-15 2023-08-01 平安科技(深圳)有限公司 证件中的目标文本提取方法、装置、设备及可读存储介质
CN111191652A (zh) * 2019-12-20 2020-05-22 中国建设银行股份有限公司 一种证件图像识别方法、装置、电子设备及存储介质
CN111242083B (zh) * 2020-01-21 2024-01-26 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质
CN117912017A (zh) * 2020-02-17 2024-04-19 支付宝(杭州)信息技术有限公司 文本识别方法、装置及电子设备
CN111639648B (zh) * 2020-05-26 2023-09-19 浙江大华技术股份有限公司 证件识别方法、装置、计算设备和存储介质
CN112232336A (zh) * 2020-09-02 2021-01-15 深圳前海微众银行股份有限公司 一种证件识别方法、装置、设备及存储介质
KR102560051B1 (ko) * 2021-01-28 2023-07-27 네이버 주식회사 고차원 다항식 회귀를 이용한 문자열 검출 방법 및 시스템
CN113313114B (zh) * 2021-06-11 2023-06-30 北京百度网讯科技有限公司 证件信息获取方法、装置、设备以及存储介质
CN113569839B (zh) * 2021-08-31 2024-02-09 重庆紫光华山智安科技有限公司 证件识别方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018500704A (ja) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域抽出方法及び装置
JP6458239B1 (ja) * 2017-08-29 2019-01-30 株式会社マーケットヴィジョン 画像認識システム
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10126835B4 (de) * 2001-06-01 2004-04-29 Siemens Dematic Ag Verfahren und Vorrichtung zum automatischen Lesen von Adressen in mehr als einer Sprache
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法
US9798948B2 (en) * 2015-07-31 2017-10-24 Datalogic IP Tech, S.r.l. Optical character recognition localization tool
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN106886777B (zh) * 2017-04-11 2020-06-09 深圳怡化电脑股份有限公司 一种字符边界确定方法及装置
CN108229299B (zh) * 2017-10-31 2021-02-26 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN109670480B (zh) * 2018-12-29 2023-01-24 深圳市丰巢科技有限公司 图像判别方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018500704A (ja) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域抽出方法及び装置
JP6458239B1 (ja) * 2017-08-29 2019-01-30 株式会社マーケットヴィジョン 画像認識システム
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109598272A (zh) * 2019-01-11 2019-04-09 北京字节跳动网络技术有限公司 字符行图像的识别方法、装置、设备及介质

Also Published As

Publication number Publication date
JP7033208B2 (ja) 2022-03-09
KR20200128015A (ko) 2020-11-11
US20200372248A1 (en) 2020-11-26
SG11202007758TA (en) 2020-12-30
JP2021524948A (ja) 2021-09-16
CN110321895A (zh) 2019-10-11
WO2020220575A1 (zh) 2020-11-05
TW202042105A (zh) 2020-11-16

Similar Documents

Publication Publication Date Title
KR102435365B1 (ko) 증명서 인식 방법 및 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체
US11275961B2 (en) Character image processing method and apparatus, device, and storage medium
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN112016438B (zh) 一种基于图神经网络识别证件的方法及系统
US10572728B2 (en) Text image processing method and apparatus
CN110942074B (zh) 字符切分识别方法、装置、电子设备、存储介质
WO2020140698A1 (zh) 表格数据的获取方法、装置和服务器
US10318803B1 (en) Text line segmentation method
CA3052248C (en) Detecting orientation of textual documents on a live camera feed
CN110942004A (zh) 基于神经网络模型的手写识别方法、装置及电子设备
CN111062365B (zh) 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
CN108734161B (zh) 冠字号区域的识别方法、装置、设备及存储介质
CN113065536A (zh) 处理表格的方法、计算设备和计算机可读存储介质
US9483834B1 (en) Object boundary detection in an image
US20220392107A1 (en) Image processing apparatus, image processing method, image capturing apparatus, and non-transitory computer-readable storage medium
CN114120305A (zh) 文本分类模型的训练方法、文本内容的识别方法及装置
CN113392455A (zh) 基于深度学习的户型图比例尺检测方法、装置及电子设备
AU2014277851A1 (en) Detecting a gap between text columns from text line fragments
US11727700B2 (en) Line removal from an image
US11983882B2 (en) E13B image interpretation method
CN106548502B (zh) 图像处理方法及装置
CN114049646A (zh) 一种银行卡识别方法、装置、计算机设备及存储介质
CN116883544A (zh) 字符笔画粗细的调整方法、装置、电子设备及存储介质
CN115995082A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN114387605A (zh) 文本检测方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant