KR102610456B1

KR102610456B1 - 객체 인식 방법과 장치, 전자기기, 저장매체

Info

Publication number: KR102610456B1
Application number: KR1020217022851A
Authority: KR
Inventors: 보하오 펭; 시아오슈아이 장
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-02-10
Filing date: 2020-12-11
Publication date: 2023-12-06
Also published as: EP3979129A4; CN111291742A; US20220130160A1; KR20210113620A; WO2021159843A1; JP2022536320A; EP3979129A1; CN111291742B; US11995905B2; JP7389824B2

Abstract

본 출원은 객체 인식 방법과 장치, 전자기기, 저장매체를 개시하는 바, 인공지능 분야에 관한 것으로, 인식될 객체를 수집하는 단계, 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 단계, 기설정된 텍스트 인식 모델을 기초로 관심점 텍스트 정보에 대해 인식을 수행하는 단계를 포함하며, 타겟 텍스트 검출 모델로 전체 텍스트 정보에서 관심점 텍스트 정보를 식별 및 식별하여 획득함으로써, 종래 기술에서 전체 텍스트 정보에 대해 인식하는 것을 방지하고, 인식 시간을 절감하고 인식 효율을 향상시킨다.

Description

객체 인식 방법과 장치, 전자기기, 저장매체

본 출원은 데이터 처리 기술분야에 관한 것으로, 특히 인공지능 기술분야에 관한 것이고, 구체적으로 객체 인식 방법과 장치, 전자기기, 저장매체에 관한 것이다.

본 출원은 2020년 02월 10일에 중국 특허국에 제출한 출원번호가 CN202010085064.1이고, 출원의 명칭이 "객체 인식 방법과 장치, 전자기기, 저장매체"인 중국 특허 출원의 우선권을 주장하며, 이의 전체 내용은 인용을 통해 본 출원에 결합된다.

광학 문자 인식(Optical Character Recognition, OCR)은 주로 캐리어에 표시된 광학 문자를 인식하여 텍스트 출력을 생성한다. 종이 문서의 OCR 인식을 예로 들면, 종이 문서의 인쇄체에서 얻은 광학 문자를 수집하여 인식을 수행하면 텍스트 정보와 같은 데이터를 얻을 수 있다. 예를 들어, OCR 인식 방법을 통해 다양한 카드, 영수증, 신문과 교재 등의 OCR 인식 템플릿을 주문 제작하고, OCR 인식 템플릿 중의 텍스트 인식 모델을 기반으로 검출 결과에 대해 인식한다.

종래 기술에서는 OCR 인식 템플릿의 텍스트 검출 모델을 사용하여 인식될 객체의 전체 텍스트 정보(예컨대, 인식될 객체에 대응하는 이미지의 모든 텍스트 등)를 검출하여 검출 결과를 획득하고, OCR 인식 템플릿 중의 텍스트 인식 모델을 기반으로 검출 결과에 대해 인식한다.

그러나, 본 출원을 구현하는 과정에서, 발명자는 전술한 종래 기술이 적어도 다음과 같은 기술적 문제점을 가지고 있음을 발견하였다. 즉, 텍스트 검출 모델로 인해 인식될 객체에 대응되는 전체 텍스트 정보에 대해 인식함에 따른 인식 효율이 낮다.

객체 인식 방법과 장치, 전자기기, 저장매체를 제공한다.

본 출원의 실시예의 일 측면에 따르면, 본 출원의 실시예는 객체 인식 방법을 제공하는 바, 상기 방법은,

인식될 객체를 수집하는 단계;

상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 단계;

기설정된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행하는 단계를 포함한다.

본 출원의 실시예는, 타겟 텍스트 검출 모델로 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득함으로써, 종래 기술에서 전체 텍스트 정보에 대해 인식하는 것을 방지하고, 인식 시간을 절감하고 인식 효율을 향상시킨다.

일부 실시예에서, 상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 상기 단계 전에, 상기 방법은,

초기 텍스트 검출 모델을 사용하여, 수집된 샘플 객체에 대응되는 검출 박스를 생성하는 단계;

상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하는 단계;

확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝하여, 상기 타겟 텍스트 검출 모델을 생성하는 단계를 더 포함한다.

본 출원의 실시예는, 확정된 검출 박스를 기초로 초기 텍스트 검출 모델에 대해 트레이닝 하도록 관심점 텍스트 정보에 대응되는 검출 박스를 확정하여 타겟 텍스트 검출 모델을 생성함으로써, 전체 텍스트 정보에서 관심 텍스트 정보를 선별 및 식별하여 획득할 수 있는 타겟 텍스트 검출 모델을 얻을 수 있기에, 인식될 객체에 대한 인식 효율의 향상을 구현한다.

다른 일부 실시예에서, 상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하는 상기 단계는,

상기 관심점 텍스트 정보를 기초로 상기 검출 박스에 대해 수정 및/또는 삭제 조작을 수행하되, 여기서, 상기 수정 조작은 선분 수정, 텍스트 수정 및 사각점 위치 수정 중에서 적어도 하나를 포함하는 단계를 포함한다.

다른 일부 실시예에서, 상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하는 상기 단계 후에, 상기 방법은,

기설정된 텍스트 인식 모델을 기초로 확정된 검출 박스에 대응되는 텍스트 정보에 대해 인식을 수행하여, 인식결과를 획득하는 단계;

상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 상기 인식결과 중의 제2 키값 쌍에 대해 재점검하는 단계를 더 포함하고;

및, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝하는 상기 단계는,

상기 인식결과의 제2 키값 쌍과 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 동일한 것에 응답하여, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝하는 단계를 포함한다.

본 출원의 실시예는, 키값 쌍을 기반으로 하는 재점검 방식을 트레이닝의 트리거 조건으로 하여, 트레이닝 데이터의 유효성과 정확성을 확보할 수 있으며, 이로부터 트레이닝 결과의 신뢰성을 구현하고, 나아가 인식의 정확성을 구현한다.

일부 실시예에서, 상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 상기 단계 후에, 상기 방법은,

상기 관심점 텍스트 정보에 대응되는 텍스트 유형을 확정하는 단계를 더 포함하고;

및 기설정된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행하는 상기 단계는,

상기 텍스트 유형에 대응되는 텍스트 인식 모델을 선택하고, 선택된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행하는 단계를 포함한다.

본 출원의 실시예는, 서로 다른 텍스트 인식 모델을 선택하여 서로 다른 텍스트 유형의 관심점 텍스트 정보에 대해 인식을 수행하여, 맞춤형 인식을 구현하고, 이로부터 인식효율을 향상시킬 수 있으며, 또한 인식 정확성을 향상시킬 수 있다.

본 출원의 실시예의 다른 측면에 따르면, 본 출원의 실시예는 객체 인식 장치를 더 제공하는 바, 상기 장치는,

인식될 객체를 수집하는 수집모듈;

상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 검출모듈;

기설정된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식하는 인식모듈을 포함한다.

일부 실시예에서, 상기 장치는,

초기 텍스트 검출 모델을 사용하여 수집된 샘플 객체에 대응되는 검출 박스를 생성하고, 상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하고, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝하여, 상기 타겟 텍스트 검출 모델을 생성하는 트레이닝 모듈을 더 포함한다.

일부 실시예에서, 상기 트레이닝 모듈은, 상기 관심점 텍스트 정보를 기초로 상기 검출 박스에 대해 수정 및/또는 삭제 조작을 수행하되, 여기서, 상기 수정 조작은 선분 수정, 텍스트 수정 및 사각점 위치 수정 중에서 적어도 하나를 포함한다.

일부 실시예에서, 상기 트레이닝 모듈은, 기설정된 텍스트 인식 모델을 기초로 확정된 검출 박스에 대응되는 텍스트 정보에 대해 인식을 수행하여, 인식결과를 획득하고, 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 상기 인식결과 중의 제2 키값 쌍에 대해 재점검하고, 상기 인식결과의 제2 키값 쌍과 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 동일한 것에 응답하여, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝한다.

일부 실시예에서, 상기 장치는,

상기 관심점 텍스트 정보에 대응되는 텍스트 유형을 확정하는 확정모듈을 더 포함하고;

및, 상기 인식모듈은, 상기 텍스트 유형에 대응되는 텍스트 인식 모델을 선택하고, 선택된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행한다.

본 출원의 실시예의 다른 측면에 따르면, 본 출원의 실시예는 전자기기를 더 제공하는 바,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되,

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상술한 임의의 실시예에 따른 방법을 수행할 수 있도록 한다.

본 출원의 실시예의 다른 측면에 따르면, 본 출원의 실시예는 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체를 더 제공하는 바, 상기 컴퓨터 명령은 컴퓨터가 상술한 임의의 실시예에 따른 방법을 수행하도록 하기 위한 것이다.

본 출원의 실시예의 다른 측면에 따르면, 본 출원의 실시예는 컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램을 더 제공하는 바, 프로그램 코드를 포함하고, 컴퓨터가 상기 컴퓨터 프로그램을 실행 시, 상기 프로그램 코드는 상술한 임의의 실시예에 따른 방법을 실행한다.

본 출원의 실시예의 다른 측면에 따르면, 본 출원의 실시예는 컴퓨터 프로그램 제품을 더 제공하는 바, 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 때, 상술한 임의의 실시예에 따른 방법을 구현한다.

본 출원의 실시예는 객체 인식 방법, 장치, 전자기기, 저장매체를 제공하는 바, 인식될 객체를 수집하는 단계, 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하고, 기설정된 텍스트 인식 모델을 기초로 관심점 텍스트 정보에 대해 인식을 수행하는 단계를 포함한다. 본 출원의 실시예는, 타겟 텍스트 검출 모델로 전체 텍스트 정보에서 관심점 텍스트 정보를 식별 및 식별하여 획득함으로써, 종래 기술에서 전체 텍스트 정보에 대해 인식하는 것을 방지하고, 인식 시간을 절감하고 인식 효율을 향상시킨다.

본 부분에서 설명된 내용은 본 개시의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 개시의 범위를 제한하려는 의도가 아님을 이해해야 한다. 본 개시의 다른 특징은 다음 설명에 의해 쉽게 이해 될 것이다.

첨부된 도면은 본 방안을 더 잘 이해할 수 있도록 하기 위한 것으로서, 본 출원에 대한 한정은 아니다.
도 1은 본 출원의 실시예의 객체 인식 방법의 흐름도이다.
도 2는 본 출원의 실시예의 타겟 텍스트 검출 모델을 획득하는 방법의 흐름도이다.
도 3은 본 출원의 다른 실시예의 타겟 텍스트 검출 모델을 획득하는 방법의 흐름도이다.
도 4는 본 출원의 다른 실시예의 객체 인식 방법의 흐름도이다.
도 5는 본 출원의 실시예의 객체 인식 방법의 응용 시나리오의 도면이다.
도 6은 본 출원의 실시예의 인터페이스 디스플레이 도면이다.
도 7은 본 출원의 실시예의 객체 인식 장치의 도면이다.
도 8은 본 출원의 다른 실시예의 객체 인식 장치의 도면이다.
도 9는 본 출원의 다른 실시예의 객체 인식 장치의 도면이다.
도 10은 본 출원의 실시예의 전자기기의 블록도이다.

아래에서는 첨부 도면과 결합하여 본 출원의 예시적인 실시예에 대해 설명하며, 이해를 돕기 위하여 본 출원의 실시예의 다양한 세부 사항을 포함하며, 이들을 단지 예시적인 것으로만 간주되어야 한다. 따라서, 본 분야의 통상적인 지식을 가진 자라면, 여기에 설명된 실시예에 대하여 다양한 변경과 수정을 가할 수 있으며, 이는 본 출원의 범위와 정신을 벗어나지 않음을 이해해야 한다. 마찬가지로, 명확성과 간결성을 위하여, 아래의 설명에서 공지 기능과 구조에 대한 설명을 생략한다.

상술한 배경기술을 결합하면, 종래 기술에서 다양한 카드, 영수증, 신문과 교재 등에 대해 효율적이고 신속하게 인식하기 위해 통상적으로 사용하는 방식은 OCR 인식 방식을 통해 해당하는 OCR 인식 템플릿을 제작하고, 해당하는 OCR 인식 템플릿을 제작할 때 대응되는 샘플 데이터를 수집하여 샘플 데이터에 대해 트레이닝을 수행하여 OCR 인식 템플릿을 생성한다는 것을 알 수 있다. 또한 종래 기술에서는 인식의 신뢰성을 확보하기 위해 선택한 샘플 데이터의 양이 보다 많을 것이며, 트레이닝 과정에 사용한 것은 전체 텍스트 정보에 대한 검출과 인식이다.

하지만, 본 출원의 발명자는 창조적 노력을 거쳐, 부분 텍스트 정보를 기초로 인식될 객체에 대한 인식을 구현하는 것을 생각해 내었으며, 예컨대 전체 텍스트 정보에서 관심점 텍스트 정보를 선택하는 바, 이때, 샘플 데이터는 일정한 정도 감소될 수 있으며, 또한 인식 과정에서, 인식될 객체의 텍스트 정보가 상대적으로 감소하기에, 인식 효율을 상대적으로 향상시킬 수 있고, 또한 전체 텍스트 정보에서 관심점 텍스트 정보를 선별해 내기에, 노이즈 정보를 줄이고 인식의 정확성을 향상시킬 수 있다.

다시 말하면, 종래 기술에서는, 인식의 정확성과 효율을 향상시키기 위해 사용한 아이디어는 가능한 한 샘플 데이터를 많이 증가하고 가능한 한 샘플 데이터 중의 모든 텍스트 정보에 대해 인식을 수행하는 것이다. 하지만 본 출원의 발명자가 사용한 아이디어는 가능한 한 샘플 데이터를 줄이고, 인식하는 텍스트 정보를 가능한 한 줄이는 것이다.

아래 구체적인 실시예로 본 출원의 기술방안과 본 출원의 기술방안이 상술한 기술문제를 해결하는 것에 대해 상세하게 설명한다. 아래 몇개의 구체적인 실시예는 서로 결합될 수 있으며, 동일하거나 유사한 개념 또는 과정은 일부 실시예에서 더 이상 중복 설명하지 않을 수 있다. 아래 첨부 도면을 결합하여 본 출원의 실시예에 대해 설명한다.

본 출원의 실시예의 일 측면에 따르면, 본 출원의 실시예는 객체 인식 방법을 제공한다.

도 1을 참조하면, 도 1은 본 출원의 실시예의 객체 인식 방법의 흐름도이다.

도1에 도시된 바와 같이 해당 방법은 아래의 단계들을 포함한다.

S101: 인식될 객체를 수집한다.

여기서, 인식될 객체는 OCR 인식 템플릿에 의해 인식될 수 있는 객체이다. 예컨대, 인식될 객체는 카드, 영수증, 신문과 교재 등을 포함한다.

일부 실시예에서, 영상 수집 장치를 사용하여 인식될 객체를 수집할 수 있다. 여기서, 영상 수집 장치는 스캐너와 카메라 등을 포함한다.

S102: 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득한다.

해당 단계는 구체적으로, 인식될 객체에 대응되는 OCR 인식 템플릿을 확정하고, COR 인식 템플릿 중의 타겟 텍스트 검출 모델을 확정하고, 타겟 텍스트 검출 모델을 기초로 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 특징을 선별해 내고, 관심점 특징에 대해 텍스트 검출을 수행하여 관심점 텍스트 정보를 획득하는 단계를 포함할 수 있다.

상술한 예시를 기초로, 서로 다른 인식될 객체가 서로 다른 OCR 인식 템플릿에 대응되고, OCR 인식 템플릿이 한 부분은 텍스트 검출 모델이고, 다른 부분은 텍스트 인식 모델인 두 부분으로 구성된다는 것을 알 수 있다. 여기서, 텍스트 검출 모델은 인식될 객체에 대해 검출하여, 인식될 객체의 텍스트 정보를 획득하기 위한 것이고; 텍스트 인식 모델은 텍스트 정보에 대해 인식을 수행하여, 인식결과를 획득하기 위한 것이다.

본 출원의 실시예는, 인식될 객체와 OCR 인식 템플릿의 매핑관계, 예컨대 매핑 테이블과 색인번호 등을 미리 구축하여, 인식될 객체가 수집된 후, 해당 매핑관계를 기초로 인식될 객체에 대응되는 OCR 인식 템플릿을 확정할 수 있도록 한다.

여기서, 타겟 텍스트 검출 모델은 관심점 텍스트 정보를 기반으로 트레이닝하여 획득된 것이며, 추후에 상세하게 설명할 것이며, 여기서 더 이상 중복 설명하지 않는다.

여기서, 전체 텍스트 정보는, 말 그대로, 전부의 텍스트 정보이며, 즉 인식될 객체에 대응되는 모든 텍스트 정보이다. 하지만 관심점 텍스트 정보는 전체 텍스트 정보의 상대적인 개념이며, 부분 텍스트 정보, 즉 인식될 객체에 대응되는 부분 텍스트 정보를 가리키며, 해당 부분의 텍스트 정보와 관심점은 대응되고, 관심점은 인식될 객체 중에서 주목받는 점의 텍스트 정보를 가리킨다. 해당 관심점은 사용자를 기초로 선택된 것일 수 있으며, 예컨대, 인식될 객체가 명함인 것을 예를 들면, 관심점은 사용자가 미리 수요에 따라 선택한 회사 정보와 직위 정보 등일 수 있으며; 해당 관심점은 미리 수집된 인식될 객체에 대한 조사 데이터를 기초로 확정된 것이며, 즉 조사 데이터를 기초로 다양한 그룹의 사람들이 해당 명함에 대해 주목하는 점을 확정하고, 클러스터와 같은 처리를 수행한 후 확정된 관심점 등일 수 있다.

상술한 분석을 결합하면 알 수 있듯이, 해당 단계에서, 타겟 텍스트 검출 모델을 사용하여 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하며, 종래 기술에서 전체 텍스트 정보에 대해 인식을 수행하는 것과 비교할 때, 노이즈 데이터와 인식하는 데이터 양을 줄이고 인식 효율과 신뢰성을 향상시킨다.

S103: 기설정된 텍스트 인식 모델을 기초로 관심점 텍스트 정보에 대해 인식을 수행한다.

S102로부터, 타겟 텍스트 검출 모델을 거쳐, 출력된 관심점 텍스트 정보는 전체 텍스트 정보 중의 부분 텍스트 정보이기에, 해당 단계에서 텍스트 인식 모델로 인식한 데이터 량이 상대적으로 적으며, 추가적으로 인식 효율을 향상시킬 수 있다는 것을 알 수 있다.

상술한 예시로부터, 타겟 텍스트 검출 모델은 관심점 텍스트 정보에 대해 트레이닝하여 획득된 것임을 알 수 있으며, 여기서 도 2를 결합하여 본 출원의 실시예의 타겟 텍스트 검출 모델을 획득하는 방법에 대해 상세하게 설명한다.

도 2에 도시된 바와 같이, 타겟 텍스트 검출 모델을 획득하는 방법은 아래의 단계들을 포함한다.

S01: 초기 텍스트 검출 모델을 사용하여 수집된 샘플 객체에 대응되는 검출 박스를 생성한다.

여기서, 초기 텍스트 검출 모델은 종래 기술의 텍스트 검출 모델이고, 뉴럴 네트워크 모델과 샘플 데이터를 기초로 트레이닝하여 생성될 수 있으며, 여기서 더 이상 중복 설명하지 않는다.

여기서, 검출 박스는 샘플 객체의 검출 영역과 검출 영역 내의 정보(예컨대 텍스트 정보 등)를 표시한다.

S01 전에, 샘플 객체를 수집하는 단계를 더 포함한다.

일부 실시예에서, 기설정된 영상 수집 장치를 사용하여 샘플 객체를 수집하는 바, 예컨대 스캐너와 카메라를 포함하고, 설정된 업로드 윈도우도 포함하며, 사용자는 업로드 형식으로 업로드 윈도우를 통해 샘플 객체를 업로드할 수 있다.

트레이닝 과정의 신뢰성을 확보하기 위하여, 우선적으로 수집된 샘플 객체에 대해 사전 처리를 수행할 수 있다.

예를 들면, 샘플 객체에 대해 주체 추출을 수행하고, 즉 샘플 객체의 주체를 배경으로부터 분리한다. 구체적으로, 모델을 사용하여 샘플 객체의 주체 부분을 추출하고 배경의 간섭을 제거할 수 있다. 여기서, 주체를 추출하는 모델은 영상 분할 모델, 예컨대 시맨틱 영상 분할 모델 DeepLabV3+를 사용할 수 있으며; 또 예를 들면, 공업급 분할 모델 라이브러리 PaddleSeg 등을 사용할 수 있다.

주체 추출을 수행한 후에, 주체 추출한 후의 샘플 객체에 대해 경사 교정을 수행할 수 있다.

예를 들면, 촬영 각도 등 문제로 인해, 샘플 객체는 일정한 경사가 존재할 수 있으며, 이때 경사에 대해 교정하고, 구체적으로 오픈 소스 비전 라이브러리인 Opencv의 교정 알고리즘을 사용하여 주체 추출 후의 샘플 객체의 교정을 완성할 수 있다.

교정을 수행한 후에, 교정한 후의 샘플 객체에 대해 스케일링을 수행할 수 있다.

예를 들면, 스케일링을 수행한 후 서로 다른 샘플 객체의 텍스트 위치를 접근시켜 트레이닝이 용이하도록 하고, 트레이닝의 신뢰성을 향상시켜 트레이닝 오차를 감소한다. 구체적으로, 확대는 초고해상도 알고리즘 SRCNN을 사용하여 구현할 수 있고, 축소는 오픈 소스 컴퓨터 비전 라이브러리인 Opencv의 축소 알고리즘을 사용하여 구현할 수 있다.

스케일링을 수행한 후, 스케일링 한 후의 샘플 객체에 대해 영상 증강을 수행할 수 있다.

예를 들면, 스케일링한 후의 샘플 객체의 콘트라스트를 더욱 강화하고, 인식률을 향상시키기 위하여, 스케일링한 후의 샘플 객체에 대해 영상 증강을 수행할 수 있다. 구체적으로, 오픈 소스 컴퓨터 비전 라이브러리인 Opencv의 샤프닝 처리를 사용하여, 스케일링한 후의 샘플 객체의 엣지가 더욱 선명하도록 한다. 더욱 구체적으로, 2차 미분으로 샤프닝을 완성할 수 있다. 예컨대 Laplacian 연산자를 이용하여 스무딩과 스케일링한 후의 샘플 객체의 가중 픽셀을 더하여 중첩으로 샤프닝을 완성한다.

S02: 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정한다.

일부 실시예에서, 해당 단계는 구체적으로, 관심점 텍스트 정보를 기초로 검출 박스에 대해 수정 조작 및/또는 삭제 조작을 수행하되, 여기서, 수정 조작은 선분 수정, 텍스트 수정과 사각점 위치의 수정 중에서 적어도 하나를 포함하는 단계를 포함할 수 있다.

상술한 예시로부터, 관심점 텍스트 정보는 사용자가 선택한 관심점에 대응되는 텍스트 정보일 수 있고, 미리 설정한 관심점에 대응되는 텍스트 정보일 수도 있으며, 미리 설정한 관심점은 조사 데이터를 기초로 생성된 것일 수 있다. 여기서 관심점 텍스트 정보가 사용자에 의해 선택된 관심점에 대응되는 텍스트 정보인 것을 예로 들어 해당 단계에 대해 상세하게 설명한다.

초기 텍스트 검출 모델을 기초로 검출 박스를 생성할 때, 검출 박스를 표시할 수 있으며, 예컨대 디스플레이 기기를 통해 검출 박스를 표시할 수 있다.

사용자는 관심점 텍스트 정보(즉, 사용자가 주목하는 점의 텍스트 정보)를 기초로 검출 박스에 대해 수정 또는 삭제할 수 있다.

예를 들면, 어느 검출 박스 내의 텍스트에 경사진 문자가 포함되면, 사용자는 해당 경사진 문자에 대해 적응적인 조정을 수행할 수 있고; 또 예를 들면, 어느 검출 박스 중의 부분 문자가 검출 박스를 초과하였으면, 사용자는 해당 검출 박스의 크기를 적응적으로 조절할 수 있으며, 구체적으로 검출 박스의 선분에 대해 적응적으로 조절하거나, 또는 검출 박스의 사각점의 위치에 대해 적응적으로 조절할 수 있으며; 또 예를 들면, 어느 검출 박스 내의 텍스트 정보가 비 관심점 정보 텍스트이면, 즉 해당 검출 박스 내의 텍스트 정보가 사용자가 주목하지 않는 텍스트 정보이면, 사용자는 해당 검출 박스를 삭제할 수 있으며, 여기서 더 이상 일일이 열거하지 않는다.

S03: 확정된 검출 박스를 기초로 초기 텍스트 검출 모델에 대해 트레이닝을 수행하여, 타겟 텍스트 검출 모델을 생성한다.

해당 단계에서, 확정된 검출 박스를 기초로 초기 텍스트 검출 모델에 대해 2차 트레이닝을 수행하여, 타겟 텍스트 검출 모델을 생성하도록 한다.

설명이 필요한 것은, 2차 트레이닝하는 방식으로 타겟 텍스트 검출 모델을 생성함으로써, 재 트레이닝하는 것과 비교할 때 타겟 텍스트 검출 모델을 생성하는 효율을 향상시키고 트레이닝 코스트를 절약할 수 있다.

도 3과 결합하면, 일부 실시예에서, S02 후에 해당 방법은 아래의 단계들을 더 포함함을 알 수 있다.

S02’: 기설정된 텍스트 인식 모델을 기초로 확정된 검출 박스에 대응되는 텍스트 정보에 대해 인식을 수행하여, 인식결과를 획득한다.

본 출원의 실시예에서, 구체적인 인식 방법은 종래기술을 참조할 수 있으며, 여기서 더 이상 중복 설명하지 않는다.

S03’: 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 인식결과 중의 제2 키값 쌍에 대해 재점검한다.

관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 인식결과 중의 제2 키값 쌍에 대해 재점검하여, 인식결과 중의 제2 키값 쌍과 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 동일한지 여부를 확정할 수 있다. 즉, 두 개의 키값 쌍에 대해 재점검하는 과정은 두 개의 키값 쌍이 동일한지 여부를 판단하는 과정으로 이해할 수 있다.

및, S03은, 인식결과의 제2 키값 쌍과 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 동일한 것에 응답하여, 확정된 검출 박스를 기초로 초기 텍스트 검출 모델에 대해 트레이닝을 수행하는 단계를 포함한다.

설명이 필요한 것은, 인식결과의 제2 키값 쌍을 기초로 관심점 텍스트 정보에 대응되는 제1 키값 쌍에 대해 재점검을 수행하여 획득된 재점검 결과는 인식결과의 제2 키값 쌍과 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 서로 다른 것일 수 있으며, 예컨대 인식결과의 제2 키값 쌍을 기초로, A 위치의 키(예컨대 성씨 등)를 알 수 있고, 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로, A 위치의 값(예컨대 이름 등)을 알 수 있으며, 이때 해당 인식결과에 대응되는 샘플 데이터는 이상 샘플 데이터일 수 있으며, 이때 해당 인식결과에 대응되는 검출 박스를 삭제할 수 있거나, 또는, 해당 인식결과에 대응되는 검출 박스에 대해 적응적으로 수정하여 추후에 트레이닝할 수 있다.

또 예를 들면, 인식결과의 제2 키값 쌍을 기초로 A 위치의 키(예컨대 성씨 등)를 알 수 있고, 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 A 위치의 키(예컨대 성씨 등)을 알 수 있으면, 해당 인식결과에 대응되는 샘플 데이터는 정상적인 샘플 데이터임을 나타내고, 이때 해당 결과에 대응되는 검출 박스를 추후의 트레이닝의 입력 정보로 한다.

본 출원의 실시예는, 키값 쌍에 기반한 재점검으로 이상 샘플 데이터를 배제하여 정상적인 샘플 데이터를 보류함으로써, 정상적인 샘플 데이터에 대응되는 검출 박스를 기초로 트레이닝을 수행할 수 있으며, 트레이닝 결과의 신뢰성과 정확성을 향상시킬 수 있으며, 타겟 텍스트 검출 모델의 신뢰성과 정확성을 확보할 수 있어, 나아가 정확하고 효과적인 인식의 기술효과를 구현한다.

일부 실시예에서, 도 4를 결합하면, S102 후에 해당 방법은 다음의 단계들을 포함한다는 것을 알 수 있다.

S102’: 관심점 텍스트 정보에 대응되는 텍스트 유형을 확정한다.

설명이 필요한 것은, 인식결과의 신뢰성과 정확성을 확보하고, 인식 효율을 향상시키기 위하여, 본 출원의 실시예는, 관심점 텍스트 정보에 대응되는 텍스트 유형을 확정하고, 서로 다른 관심점 텍스트 정보를 기초로 그 각자에 대응되는 텍스트 유형을 선택하여, 추후에 서로 다른 텍스트 유형을 기초로 텍스트 인식 모델을 적응적으로 선택하여 인식하도록 한다.

여기서, 텍스트 유형은 문자, 필기체와 자모 등을 포함하지만 이에 한정되지 않는다.

일부 실시예에서, 관심점 텍스트 정보에 대해 분석하여 이에 대응되는 텍스트 유형을 획득할 수 있다.

다른 일부 실시예에서, 상술한 예시를 결합하면, 사용자와의 인터랙션을 기초로 관심점 텍스트 정보를 생성할 수 있다. 따라서, 사용자와의 인터랙션을 기초로 관심점 텍스트 정보에 대응되는 텍스트 유형을 미리 저장할 수 있다.

예를 들면, 사용자와의 인터랙션을 기초로 사용자가 검출 박스 내의 텍스트 정보를 위해 선택한 텍스트 유형을 저장하고, 관심점 텍스트 정보에 대해 인식해야 할 때, 저장된 텍스트 유형에 대응되는 텍스트 인식 모델을 호출한다.

및, S103은, 텍스트 유형에 대응되는 텍스트 인식 모델을 선택하고, 선택한 텍스트 인식 모델을 기초로 관심점 텍스트 정보에 대해 인식을 수행하는 단계를 포함한다.

예를 들면, 관심점 텍스트 정보에 대응되는 텍스트 유형이 필기체이면, 필기체의 텍스트 인식 모델을 기초로 해당 관심점 텍스트 정보에 대해 인식을 수행한다.

설명이 필요한 것은, 관심점 텍스트 정보 중의 서로 다른 영역에 대응되는 텍스트 유형은 서로 다를 수 있으며, 이때 서로 다른 영역에 대해 서로 다른 텍스트 인식 모델을 선택하여, 서로 다른 텍스트 인식 모델을 기초로 서로 다른 영역에 대해 인식을 수행하도록 한다.

본 출원의 실시예의 방안과 효과에 대해 더욱 깊게 이해하기 위하여, 여기서 도 5(도 5는 본 출원의 실시예의 객체 인식 방법의 응용 시나리오의 도면이다.)를 결합하여 본 출원의 실시예의 객체 인식 방법에 대해 상세하게 설명한다. 여기서, 본 출원의 실시예의 실행 주체는 객체 인식 장치이며, 도 5에 도시된 바와 같이, 객체 인식 장치는 컴퓨터(100)를 포함할 수 있으며, 사용자(200)와 컴퓨터(100)의 인터랙션을 통해 본 출원의 실시예의 객체 인식 방법을 구현한다.

여기서, 본 출원의 실시예는, 한 부분은 트레이닝 부분이고, 다른 부분은 인식 부분인 두 개의 부분으로 나눌 수 있다.

구체적으로, 트레이닝 부분은 OCR 인식 템플릿에 대해 트레이닝을 수행하는 것을 포함하고, OCR 인식 템플릿은 텍스트 검출 모델과 텍스트 인식 모델을 포함할 수 있다. 여기서, 텍스트 검출 모델은 인식될 객체에 대해 인식을 수행하여, 인식될 객체에 대응되는 텍스트 정보를 획득한다. 설명해야 할 바로는, 종래 기술에서, 텍스트 검출 모델은 인식될 객체에 대해 인식을 수행하여 인식될 객체의 전체 텍스트 정보를 획득한다. 하지만 본 출원의 실시예는, 텍스트 검출 모델로 인식될 객체에 대해 인식을 수행하여 인식될 대상의 관심점 텍스트 정보를 획득한다. 아래 트레이닝 원리를 결합하여, 본 출원의 실시예의 텍스트 검출 모델이 인식을 거쳐 관심점 텍스트 정보를 획득하는 것을 구현할 수 있는 것에 대해 상세하게 해석한다.

트레이닝 과정에 수집된 인식 객체와 트레이닝하여 획득된 OCR 인식 템플릿을 기초로 인식 객체에 대해 인식을 수행하는 것을 구분하기 위하여, 트레이닝 과정의 인식 객체를 샘플 객체라고 부르고, 인식 과정의 객체를 인식될 객체라고 부르며; 트레이닝 과정에서 기반으로 하는 트레이닝 모델과 트레이닝하여 획득된 모델의 차이점을 구분하기 위하여, 모델 앞에 구분하기 위한 "초기"와 "타겟" 등을 추가하여 한정하는 등이 있다.

도 5에 도시된 바와 같이, 컴퓨터(100)는 사용자(200)가 입력한 샘플 객체를 수집한다.

일부 실시예에서, 컴퓨터(100)에는 샘플 객체를 업로드하는 윈도우를 설치하고 표시할 수 있으며, 사용자(200)는 해당 윈도우를 통해 샘플 객체를 컴퓨터(100)에 전송한다.

물론, 다른 일부 실시예에서, 도 5에 도시된 바와 같이, 스캐너(300)를 더 설정할 수도 있으며, 스캐너(300)와 컴퓨터(100)는 통신 연결된다. 사용자(200)는 샘플 객체를 스캐너(300)(도 5의 배치 방식을 참조할 수 있다)에 넣고, 스캐너(300)가 샘플 객체에 대해 스캔하고, 스캔한 후의 샘플 객체를 컴퓨터(100)에 전달한다.

컴퓨터(100)는 미리 저장된 초기 텍스트 검출 모델을 호출하고, 초기 텍스트 검출 모델이 샘플 객체에 대해 인식을 수행하여 상응한 검출 박스를 생성하여 표시하는 바, 도 6의 6-1(점선 박스로 검출 박스를 나타낸다)을 참조하도록 한다.

사용자(200)는 검출 박스에 대해 적응적인 조작을 실행하여 관심점 텍스트 정보에 대응되는 검출 박스를 생성한다.

해당 단계에서, 사용자(200)와 컴퓨터(100) 사이의 인터랙션과 관련되기에, 사용자가 수행한 적응적인 조작은 수요에 따라 실행한 것일 수 있으며, 즉 사용자의 마음속에 관심점을 설정하고, 적응적인 조작을 실행하여, 관심점 텍스트 정보에 대응되는 검출 박스를 생성한다.

도 6의 6-1에 도시된 바와 같이, 사용자가 검출 박스인 “고객 우선, 정직한 서비스”를 삭제하고, 검출 박스인 “전화: 150XXXXXXXX”에 대해 사각점 위치를 수정한다. 수정후의 도면은 도 6의 6-2를 참조할 수 있다.

도 6의 6-2에 도시된 데이터를 2차 트레이닝의 샘플 데이터로 하고, 해당 샘플 데이터를 기초로 초기 텍스트 검출 모델에 대해 2차 트레이닝을 수행하여, 타겟 텍스트 검출 모델을 생성한다.

일부 실시예에서, 트레이닝하는 샘플 객체의 샘플량은 수요에 따라 설정할 수 있으며, 사용한 것이 사용자 인터랙션 방식이면, 상대적으로 보다 적은 샘플량, 예컨대 샘플량을 10개로 설정하고, 이때 컴퓨터(100)는 사용자(200)가 10개 샘플 객체에 대해 적응적으로 조작한 후 생성된 샘플 데이터를 2차 트레이닝 데이터로 한다.

또한, 사용자(200)는 관심점 텍스트 정보에 대응되는 검출 박스의 문자 유형, 예컨대 검출 박스인 “전화: 150XXXXXXXX”를 선택할 수 있으며, 사용자(200)는 숫자 유형을 선택하여, 컴퓨터(100)의 인식 과정에 미리 저장된 숫자 유형에 대응되는 텍스트 인식 모델을 호출할 수 있으며, 해당 텍스트 인식 모델로 해당 검출 박스에 대해 인식을 수행하여 인식 효율을 향상시킨다.

반복 트레이닝 후에 인식한 정확도가 기설정된 요구에 도달하지 못하면, 타겟 텍스트 검출 모델과 텍스트 인식 모델을 포함하는 OCR 인식 템플릿을 생성한다.

이로서 비로소 트레이닝 부분을 종료한다.

인식 부분에서, 사용자(200)는 상술한 방식을 이용하여 인식될 객체를 컴퓨터(100)에 입력할 수도 있다.

컴퓨터(100)는 상술한 방법을 거쳐 트레이닝하여 얻은 OCR 인식 템플릿에서 인식될 객체에 대응되는 OCR 인식 템플릿을 선택하여 해당 OCR 인식 템플릿을 기초로 인식될 객체에 대해 인식을 수행한다.

구체적으로, 컴퓨터(100)는 먼저 OCR 인식 템플릿 중의 타겟 텍스트 검출 모델을 호출하여 인식될 객체에 대해 인식을 수행하여, 인식될 객체에 대응되는 관심점 텍스트 정보를 획득한다.

설명이 필요한 것은, 트레이닝 부분에서는 관심점 텍스트 정보를 기초로 초기 텍스트 검출 모델에 대해 2차 트레이닝하여 타겟 텍스트 검출 모델을 획득하기에, 타겟 텍스트 검출 모델을 기초로 인식될 객체와 관심점 텍스트 정보를 인식해 낼 수 있다. 이로부터 인식량을 줄이고, 인식 효율을 향상시키는 것을 구현한다.

관심점 텍스트 정보를 인식한 후에, 관심점 텍스트 정보에 대해 분석하거나, 또는 사용자(200)가 선택한 텍스트 유형을 기초로 상응한 텍스트 인식 모델을 호출할 수 있으며, 해당 텍스트 인식 모델로 해당 관심점 텍스트 정보에 대해 인식을 수행한다.

이로서 비로소 인식 부분을 종료한다.

설명이 필요한 것은, 상술한 예시는 단지 응용 시나리오를 결합하여 본 출원의 실시예에 대해 예시적으로 설명한 것인 바, 개시된 실시예의 범위에 대한 한정으로 이해하지 말아야 한다.

본 출원의 실시예의 다른 측면에 따르면, 본 출원의 실시예의 객체 인식 장치를 더 제공한다.

도 7을 참조하면, 도 7은 본 출원의 실시예의 객체 인식 장치의 도면이다.

도 7에 도시된 바와 같이, 해당 장치는,

인식될 객체를 수집하는 수집모듈(10);

상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 검출모듈(20);

기설정된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식하는 인식모듈(30)을 포함한다.

일부 실시예에서, 도 8을 결합하면 알 수 있듯이, 해당 장치는,

초기 텍스트 검출 모델을 사용하여 수집된 샘플 객체에 대응되는 검출 박스를 생성하고, 상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하고, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝하여, 상기 타겟 텍스트 검출 모델을 생성하는 트레이닝 모듈(40)을 더 포함한다.

일부 실시예에서, 상기 트레이닝 모듈(40)은, 상기 관심점 텍스트 정보를 기초로 상기 검출 박스에 대해 수정 및/또는 삭제 조작을 수행하되, 여기서, 상기 수정 조작은 선분 수정, 텍스트 수정 및 사각점 위치 수정 중에서 적어도 하나를 포함한다.

일부 실시예에서, 상기 트레이닝 모듈(40)은, 기설정된 텍스트 인식 모델을 기초로 확정된 검출 박스에 대응되는 텍스트 정보에 대해 인식을 수행하여, 인식결과를 획득하고, 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 상기 인식결과 중의 제2 키값 쌍에 대해 재점검하고, 상기 인식결과의 제2 키값 쌍과 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 동일한 것에 응답하여, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝한다.

일부 실시예에서, 도 9를 결합하면 알 수 있듯이, 해당 장치는,

상기 관심점 텍스트 정보에 대응되는 텍스트 유형을 확정하는 확정모듈(50)을 더 포함하고;

상기 인식모듈(30)은, 상기 텍스트 유형에 대응되는 텍스트 인식 모델을 선택하고, 선택된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행한다.

본 출원의 실시예의 다른 측면에 따르면, 본 출원은 전자기기와 판독 가능 저장매체를 더 제공한다.

본 출원의 실시예에 따르면, 본 출원은 전자기기와 판독 가능 저장매체를 더 제공한다.

도 10에 도시된 바와 같이 도 10은 본 출원의 실시예의 전자기기의 블록도이다. 전자기기는 다양한 형태의 디지털 컴퓨터, 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터를 나타내기 위한 것이다. 전자기기는 다양한 형태의 이동장치, 예컨대, 개인 정보 단말기, 셀폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치를 더 나타낼 수 있다. 본문에 개시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것이며, 본문에 개시된 것 및/또는 요구하는 본 출원의 구현을 한정하려는 의도가 아니다.

도 10에 도시된 바와 같이, 해당 전자기기는 하나 또는 복수의 프로세서(101), 메모리(102), 및 각 부재를 연결시키기 위한 고속 인터페이스와 저속 인터페이스를 포함하는 인터페이스를 포함한다. 각각의 부재는 서로 다른 버스를 통해 서로 연결되며, 공통 메인보드에 장착되거나 수요에 따라 기타 방식으로 장착될 수 있다. 프로세서는 전자기기 내에서 실행되는 명령을 처리할 수 있으며, 메모리 내 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 커플링된 디스플레이 기기) 상에 GUI의 그래픽 정보를 표시하는 명령을 포함할 수 있다. 기타 실시형태에서, 수요에 따라, 복수의 프로세서 및/또는 복수의 버스와 복수의 메모리를 함께 사용할 수 있다. 마찬가지로, 복수의 전자기기를 연결할 수 있으며, 각각의 기기는 부분 필요한 조작(예를 들면, 서버 어레이, 한 세트의 블레이드 서버, 또는 멀티 프로세서 시스템으로서)을 제공한다. 도 10은 하나의 프로세서(101)를 예로 든다.

메모리(102)는 바로 본 출원의 실시예에 따른 비일시적 컴퓨터 판독 가능 저장매체이다. 여기서, 상기 메모리는 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되어, 상기 적어도 하나의 프로세서가 본 출원의 실시예에 따른 객체 인식 방법을 수행하도록 한다. 본 출원의 실시예의 비일시적 컴퓨터 판독 가능 저장매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터가 본 출원의 실시예에 따른 객체 인식 방법을 수행하도록 한다.

메모리(102)는 비일시적 컴퓨터 판독 가능 저장매체로서, 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈, 예컨대 본 출원의 실시예의 추천 대응되는 프로그램 명령/모듈을 저장할 수 있다. 프로세서(101)는 메모리(102)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여, 서버의 다양한 기능 응용 및 데이터 처리를 수행한다. 즉, 상술한 방법 실시예 중 객체 인식 방법을 구현한다.

메모리(102)는 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있다. 여기서, 프로그램 저장 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있다. 데이터 저장 영역은 전자기기의 사용에 따라 구축되는 데이터 등을 저장할 수 있다. 한편, 메모리(102)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 예를 들어 적어도 하나의 자기 저장장치, 플래시 메모리, 또는 기타 비일시적 솔리드 스테이트 저장장치와 같은 비일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(102)는 선택적으로 프로세서(101)에 대해 원격으로 설치된 메모리를 포함할 수 있다. 이러한 원격 메모리는 네트워크를 통해 전자기기에 연결될 수 있다. 상술한 네트워크의 실예로서 인터넷, 인트라넷, 랜, 블록 체인 서비스 네트워크 (Block-chain-based Service Network, BSN), 이동 통신망 및 그 조합을 포함하지만 이에 한정되지 않는다.

전자기기는 입력장치(103)와 출력장치(104)를 더 포함할 수 있다. 프로세서(101), 메모리(102), 입력장치(103)와 출력장치(104)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 10은 버스로 연결된 것을 예로 든다.

입력장치(103)는 입력되는 숫자 또는 문자 부호 정보를 수신할 수 있고, 전자기기의 사용자 설정 및 기능 제어에 대한 키 신호 입력을 생성할 수 있다. 예를 들어 터치 스크린, 키패드, 마우스, 트랙패드, 터치패널, 지시레버, 하나 또는 복수의 마우스 버튼, 트랙 볼, 조종 레버 등의 입력장치가 있다. 출력장치(104)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동모터) 등을 포함할 수 있다. 해당 디스플레이 기기는, 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이와 플라즈마 디스플레이 등을 포함할 수 있지만 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.

여기에 기재되는 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 ASIC(전용 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 구현되는 것을 포함할 수 있고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템 상에서 실행 및/또는 해석될 수 있으며, 해당 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신할 수 있으며, 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치, 및 해당 적어도 하나의 출력장치로 전송한다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 응용, 또는 코드라고도 지칭)은 프로그램 가능 프로세서의 기계적 명령을 포함하고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계적 언어를 이용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 예컨대 본문에서 사용되는 용어 "기계 판독 가능 매체”와 "컴퓨터 판독 가능 매체”는 기계적 명령 및/또는 데이터를 프로그램 가능 프로세서로 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기, 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 디바이스(PLD))를 가리키고, 기계 판독 가능 신호인 기계적 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계적 명령 및/또는 데이터를 프로그램 가능 프로세서로 제공하기 위한 임의의 신호를 가리킨다.

사용자와의 인터랙션을 제공하기 위하여, 컴퓨터 상에서 여기에 설명되는 시스템 및 기술을 실시할 수 있으며, 해당 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들어, CRT(캐소드레이 튜브) 또는 LCD(액정 디스플레이) 모니터); 및 키보드 지향 장치(예를 들어, 마우스 또는 트랙볼)를 구비하고, 사용자는 해당 키보드와 해당 지향장치를 통해 입력을 컴퓨터로 제공할 수 있다. 기타 종류의 장치는 또한 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 센싱 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고; 임의의 형태(사운드 입력, 음성 입력 또는 촉각 입력)을 통해 사용자로부터의 입력을 수신할 수 있다.

여기에 설명되는 시스템과 기술은 백그라운드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 유저 인터페이스 또는 인터넷 브라우저를 구비하는 사용자 컴퓨터, 사용자는 해당 그래픽 유저 인터페이스 또는 해당 인터넷 브라우저를 통해 여기에 설명되는 시스템 및 기술의 실시방식과 인터랙션할 수 있다), 또는 이러한 백그라운드 부재, 중간 부재, 또는 프론트 엔드 부재를 포함하는 임의의 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신망)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신망의 예시로서, 랜(LAN), 블록 체인 서비스 네트워크 (Block-chain-based Service Network, BSN), 광역 통신망(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 통상적으로 통신망을 통해 인터랙션한다. 상응한 컴퓨터 상에서 실행되며 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트와 서버의 관계를 생성한다.

상술한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 병열로 수행될 수 있고 순차적으로 수행될 수도 있고 서로 다른 순서로 수행될 수도 있으며, 본 출원에 개시된 기술 솔루션이 원하는 결과를 얻을 수만 있다면, 본문에서는 여기서 한정하지 않는다.

상술한 구체적인 실시형태는, 본 출원의 보호범위에 대한 한정이 아니다. 본 분야의 통상의 지식을 가진 자라면, 설계 수요와 기타 요소를 기초로, 다양한 수정, 조합, 서브 조합 및 대체를 가할 수 있음을 이해할 수 있을 것이다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체와 개진 등은 모두 본 출원의 보호 범위 내에 속한다.

Claims

수집모듈, 검출모듈, 인식모듈, 트레이닝 모듈, 확정모듈을 포함하는 객체 인식 장치에 사용되는 객체 인식 방법에 있어서,
상기 방법은,
상기 수집모듈이 인식될 객체를 수집하되, 상기 인식될 객체는 OCR 인식 템플릿에 의해 인식될 수 있는 객체인 것인 단계;
상기 트레이닝 모듈이 초기 텍스트 검출 모델을 사용하여 수집된 샘플 객체에 대응되는 검출 박스를 생성하되, 수집된 샘플 객체에 대해 순차적으로 주체 추출, 경사 교정, 스케일링 처리, 영상 증강을 수행한 것인 단계;
상기 트레이닝 모듈이 상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하는 단계;
상기 트레이닝 모듈이 기설정된 텍스트 인식 모델을 기초로 확정된 검출 박스에 대응되는 텍스트 정보에 대해 인식을 수행하여, 인식결과를 획득하는 단계;
상기 트레이닝 모듈이 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 상기 인식결과 중의 제2 키값 쌍에 대해 재점검하는 단계;
상기 트레이닝 모듈이 상기 인식결과의 제2 키값 쌍과 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 동일한 것에 응답하여, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝하여 타겟 텍스트 검출 모델을 생성하는 단계;
상기 검출모듈이 상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 단계;
상기 인식모듈이 기설정된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행하는 단계를 포함하는 방법.
삭제
제1항에 있어서,
상기 트레이닝 모듈이 상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하는 상기 단계는,
상기 트레이닝 모듈이 상기 관심점 텍스트 정보를 기초로 상기 검출 박스에 대해 수정 조작 및 삭제 조작 중 적어도 하나를 수행하되, 여기서, 상기 수정 조작은 선분 수정, 텍스트 수정 및 사각점 위치 수정 중에서 적어도 하나를 포함하는 단계를 포함하는 방법.
삭제
제1항 또는 제3항에 있어서,
상기 검출모듈이 상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 상기 단계 후에, 상기 방법은,
상기 확정모듈이 상기 관심점 텍스트 정보에 대응되는 텍스트 유형을 확정하는 단계를 더 포함하고;
상기 인식모듈이 기설정된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행하는 상기 단계는,
상기 인식모듈이 상기 텍스트 유형에 대응되는 텍스트 인식 모델을 선택하고, 선택된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행하는 단계를 포함하는 방법.
객체 인식 장치에 있어서,
상기 장치는,
인식될 객체를 수집하되, 상기 인식될 객체는 OCR 인식 템플릿에 의해 인식될 수 있는 객체인 것인 수집모듈;
상기 인식될 객체에 대응되는 타겟 텍스트 검출 모델을 기초로, 상기 인식될 객체에 대응되는 전체 텍스트 정보에서 관심점 텍스트 정보를 선별 및 식별하여 획득하는 검출모듈;
기설정된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식하는 인식모듈;
초기 텍스트 검출 모델을 사용하여 수집된 샘플 객체에 대응되는 검출 박스를 생성하되, 수집된 샘플 객체에 대해 순차적으로 주체 추출, 경사 교정, 스케일링 처리, 영상 증강을 수행하고, 상기 검출 박스를 기초로 기설정된 관심점 텍스트 정보에 대응되는 검출 박스를 확정하고, 기설정된 텍스트 인식 모델을 기초로 확정된 검출 박스에 대응되는 텍스트 정보에 대해 인식을 수행하여, 인식결과를 획득하고; 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍을 기초로 상기 인식결과 중의 제2 키값 쌍에 대해 재점검하고; 상기 인식결과의 제2 키값 쌍과 상기 관심점 텍스트 정보에 대응되는 제1 키값 쌍이 동일한 것에 응답하여, 확정된 검출 박스를 기초로 상기 초기 텍스트 검출 모델에 대해 트레이닝하여 타겟 텍스트 검출 모델을 생성하는 트레이닝 모듈을 포함하는 장치.
삭제
제6항에 있어서,
상기 트레이닝 모듈은, 상기 관심점 텍스트 정보를 기초로 상기 검출 박스에 대해 수정 조작 및 삭제 조작 중 적어도 하나를 수행하되, 여기서, 상기 수정 조작은 선분 수정, 텍스트 수정 및 사각점 위치 수정 중에서 적어도 하나를 포함하는 장치.
삭제
제6항 또는 제8항에 있어서,
상기 장치는,
상기 관심점 텍스트 정보에 대응되는 텍스트 유형을 확정하는 확정모듈을 더 포함하고;
상기 인식모듈은, 상기 텍스트 유형에 대응되는 텍스트 인식 모델을 선택하고, 선택된 텍스트 인식 모델을 기초로 상기 관심점 텍스트 정보에 대해 인식을 수행하는 장치.
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고, 여기서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행될 수 있는 명령이 저장되고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 또는 제3항에 따른 방법을 수행할 수 있도록 하는 전자기기.
컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
상기 컴퓨터 명령은 상기 컴퓨터가 제1항 또는 제3항에 따른 방법을 수행하도록 하는 비일시적 컴퓨터 판독 가능 저장매체.
컴퓨터 판독 가능 저장매체에 저장된 컴퓨터 프로그램에 있어서,
프로그램 코드를 포함하고, 컴퓨터가 상기 컴퓨터 프로그램을 실행 시, 상기 프로그램 코드는 제1항 또는 제3항에 따른 방법을 수행하는 컴퓨터 프로그램.
삭제