KR20220155948A - 텍스트 인식 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

텍스트 인식 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220155948A
KR20220155948A KR1020220147012A KR20220147012A KR20220155948A KR 20220155948 A KR20220155948 A KR 20220155948A KR 1020220147012 A KR1020220147012 A KR 1020220147012A KR 20220147012 A KR20220147012 A KR 20220147012A KR 20220155948 A KR20220155948 A KR 20220155948A
Authority
KR
South Korea
Prior art keywords
feature
dimension
feature map
image
value
Prior art date
Application number
KR1020220147012A
Other languages
English (en)
Inventor
펭위안 류
센 판
샤오얀 왕
위에첸 위
쳉취안 장
쿤 야오
준위 한
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220155948A publication Critical patent/KR20220155948A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 텍스트 인식 방법, 장치, 전자 기기 및 저장 매체를 제공하는 바, 인공 지능 기술 분야에 관한 것으로, 특히는 딥러닝, 컴퓨터 비전 기술 분야에 관한 것이다. 구체적인 실시형태는 인식할 이미지의 다차원 제1 특징맵을 획득하고; 제1 특징맵 중의 각각의 특징 값에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하며; 증강 처리 후의 제1 특징맵에 기반하여, 인식할 이미지에 대해 텍스트 인식을 수행하는 것이다. 본 발명의 실시예에서 제공하는 텍스트 인식 해결수단을 응용하면, 텍스트 인식을 구현할 수 있다.

Description

텍스트 인식 방법, 장치, 전자 기기 및 저장 매체{TEXT RECOGNITION METHOD, DEVICE, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 발명은 인공 지능 기술 분야에 관한 것으로, 구체적으로 딥러닝, 컴퓨터 비전 기술 분야에 관한 것이다.
교육, 의료, 금융 등 수많은 분야와 관련된 이미지에는 텍스트가 존재하는 바, 상기 이미지에 기반하여 정보 처리를 정확하게 수행하기 위해, 상기 이미지에 대해 텍스트 인식을 수행한 후, 텍스트 인식 결과에 기반하여 정보 처리를 수행해야 한다.
본 발명에서는 텍스트 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램을 제공한다.
본 발명의 일 양태에 따르면, 텍스트 인식 방법을 제공하는 바,
인식할 이미지의 다차원 제1 특징맵을 획득하는 단계;
상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계; 및
증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하는 단계를 포함한다.
본 발명의 다른 양태에 따르면, 텍스트 인식 장치를 제공하는 바,
인식할 이미지의 다차원 제1 특징맵을 획득하기 위한 특징 획득 모듈;
상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하기 위한 특징 증강 모듈; 및
증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하기 위한 텍스트 인식 모듈을 포함한다.
본 발명의 또 다른 양태에 따르면, 전자 기기를 제공하는 바,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고; 여기서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 상기 텍스트 인식 방법을 수행할 수 있도록 한다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는 바, 상기 컴퓨터 명령은 컴퓨터가 상기 텍스트 인식 방법을 수행하도록 하기 위한 것이다.
본 발명의 또 다른 양태에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하는 바, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 상기 텍스트 인식 방법을 구현한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 우선 인식할 이미지의 다차원 제1 특징맵을 획득하고, 그 다음 제1 특징맵 중의 각각의 특징 값에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하며, 증강 처리 후의 제1 특징맵에 기반하여 텍스트 인식을 수행함으로써, 인식할 이미지에 대해 텍스트 인식을 수행하는 것을 구현할 수 있다.
이 밖에, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행할 경우, 제1 특징맵 중 각각의 특징 값에 기반하여, 각 특징 값을 처리함으로써, 증강 처리 후의 제1 특징맵 중 각 특징 값은 이미지의 전역 정보를 모두 고려하기에, 증강 처리 후의 제1 특징맵은 상기 인식할 이미지의 전역 정보를 특성화할 수 있으며, 증강 처리 후의 제1 특징맵에 기반하여 인식할 이미지에 대해 텍스트 인식을 수행하여, 텍스트 인식의 정확성을 향상할 수 있다.
반드시 이해해야 할 것은, 본 부분에서 설명되는 내용은 본 발명의 실시예의 관건 또는 중요 특징을 표시하기 위한 것이 아니며, 본 발명의 범위를 한정하지도 않는다. 본 발명의 다른 특징은 하기의 명세서를 통해 용이하게 이해될 것이다.
도면은 본 해결수단을 보다 더 이해하기 위한 것으로서, 본 발명을 한정하지 않는다. 여기서,
도 1은 본 발명의 실시예에서 제공하는 첫 번째 텍스트 인식 방법의 흐름 모식도이다.
도 2는 본 발명의 실시예에서 제공하는 두 번째 텍스트 인식 방법의 흐름 모식도이다.
도 3은 본 발명의 실시예에서 제공하는 세 번째 텍스트 인식 방법의 흐름 모식도이다.
도 4는 본 발명의 실시예에서 제공하는 네 번째 텍스트 인식 방법의 흐름 모식도이다.
도 5는 본 발명의 실시예에서 제공하는 다섯 번째 텍스트 인식 방법의 흐름 모식도이다.
도 6은 본 발명의 실시예에서 제공하는 첫 번째 텍스트 인식 장치의 구조 모식도이다.
도 7은 본 발명의 실시예에서 제공하는 두 번째 텍스트 인식 장치의 구조 모식도이다.
도 8은 본 발명의 실시예에서 제공하는 세 번째 텍스트 인식 장치의 구조 모식도이다.
도 9는 본 발명의 실시예에서 제공하는 네 번째 텍스트 인식 장치의 구조 모식도이다.
도 10은 본 발명의 실시예에서 제공하는 다섯 번째 텍스트 인식 장치의 구조 모식도이다.
도 11은 본 발명의 실시예의 텍스트 인식 방법을 구현하기 위한 전자 기기의 블록도이다.
아래 도면과 결부시켜 본 발명의 예시적 실시예를 설명하되, 여기에 이해를 돕기 위한 본 발명의 실시예의 다양한 세부사항들이 포함되지만, 이들은 단지 예시적인 것으로 이해해야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 발명의 범위 및 정신을 벗어나지 않는 전제 하에 여기서 설명된 실시예에 대해 다양한 변형 및 수정을 진행할 수 있음을 이해해야 한다. 마찬가지로, 명확 및 간략을 위해, 아래의 설명에서 공지 기능 및 구조에 대한 설명을 생략한다.
도 1을 참조하면, 도 1은 본 발명의 실시예에서 제공하는 첫 번째 텍스트 인식 방법의 흐름 모식도이고, 상기 방법은 하기의 단계(S101) ~ 단계(S103)을 포함한다.
단계(S101)에서, 인식할 이미지의 다차원 제1 특징맵을 획득한다.
상기 제1 특징맵은 인식할 이미지의 복수 개의 차원의 특징 값을 포함하는 이미지이다. 제1 특징맵의 차원은 구체적인 장면에 따라 결정된다. 예를 들면, 상기 제1 특징맵은 3차원의 특징맵일 수 있는 바, 이러한 상황에서, 3개 차원은 각각 폭 차원, 높이 차원 및 깊이 차원일 수 있고, 여기서, 깊이 차원의 차원 값은 인식할 이미지의 채널 개수에 의해 결정될 수 있다. 예컨대, 인식할 이미지가 RGB 포맷의 이미지이면, 인식할 이미지는 3개의 채널을 구비하고, 각각 R 채널, G 채널 및 B 채널이며, 깊이 차원에서 인식할 이미지의 차원 값은 각각 1, 2, 3이다.
구체적으로는, 하기의 두 가지 상이한 방식을 통해 제1 특징맵을 획득할 수 있다.
일 실시형태에서, 우선 인식할 이미지를 먼저 획득하고, 인식할 이미지에 대해 특징 추출을 수행하여, 상기 제1 특징맵을 얻을 수 있다.
다른 실시형태에서, 우선 특징 추출 기능을 구비하는 다른 기기를 통해 인식할 이미지에 대해 특징 추출을 수행하고, 그 다음 상기 기기가 인식할 이미지에 대해 특징 추출을 수행하여 얻은 특징맵을 제1 특징맵으로 사용한다.
인식할 이미지에 대해 특징 추출을 수행하는 것은 종래 기술 중의 특징 추출 네트워크 모델 또는 특징 추출 알고리즘에 기반하여 구현될 수 있다. 예를 들면, 상기 특징 추출 네트워크 모델은 콘볼루션 신경망 모델일 수 있는 바, 예컨대, 콘볼루션 신경망 중의 vgg 네트워크 모델, renset 네트워크 모델, mobilenet 네트워크 모델 등일 수 있으며, 상기 특징 추출 모델은 FPN(Feature Pyramid Networks, 특징 피라미드 네트워크), PAN(Pixel Aggregation Network, 픽셀 집합 네트워크) 등 네트워크 모델일 수도 있으며, 상기 특징 추출 알고리즘은 deformconv, se, dilationconv, inception 등 연산자일 수 있다.
단계(S102)에서, 제1 특징맵 중의 각각의 특징 값에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행한다.
이미지에서 이미지 특징은 수용야가 존재하며, 상기 수용야는 이미지 특징의 래원으로 이해할 수 있는 바, 상기 수용야는 이미지 중의 일부 영역일 수 있고, 이미지 특징은 상기 일부 영역에 대해 상징성을 구비하며, 상이한 이미지 특징의 수용야는 상이할 수 있는 바, 이미지 특징의 수용야가 변화될 경우, 상기 이미지 특징에도 변화가 발생할 수 있다. 상기 제1 특징맵 중 각 특징 값에 대해 특징 증강 처리를 수행하면, 제1 특징맵 중 각 특징 값의 수용야를 확대함으로써, 상기 인식할 이미지에 대한 제1 특징맵의 상징성을 향상할 수 있다.
제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행할 경우, 제1 특징맵 중의 각각의 특징 값을 모두 고려하므로, 상기 특징 증강 처리를 전역 주의력 메커니즘에 기반하여 구현된 특징 증강 처리로 간주할 수 있다.
제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계의 구체적인 실시형태는 후속적인 도 2에 도시된 실시예 중 단계(S202) ~ 단계(S205) 및 도 5에 도시된 실시예 중 단계(S502) ~ 단계(S504)를 참조 가능하며, 여기서 잠시 상세하게 서술하지 않는다.
단계(S103)에서, 증강 처리 후의 제1 특징맵에 기반하여, 인식할 이미지에 대해 텍스트 인식을 수행한다.
일 실시형태에서, 증강 처리 후의 제1 특징맵을 얻은 후, 상기 특징맵에 기반하여 인식할 이미지 텍스트 프레임을 예측하고, 텍스트 프레임 중의 콘텐츠에 대해 텍스트 인식을 수행하여, 인식할 이미지에 포함되는 텍스트를 얻을 수 있다.
구체적으로는, 기존의 다양한 디코딩 기술을 통해 텍스트 인식을 구현할 수 있으며, 여기서 더 이상 설명하지 않는다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 우선 인식할 이미지의 다차원 제1 특징맵을 획득하고, 그 다음 제1 특징맵 중의 각각의 특징 값에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하며, 증강 처리 후의 제1 특징맵에 기반하여 텍스트 인식을 수행함으로써, 인식할 이미지에 대해 텍스트 인식을 수행하는 것을 구현할 수 있다.
이 밖에, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행할 경우, 제1 특징맵 중 각각의 특징 값에 기반하여, 각 특징 값을 처리함으로써, 증강 처리 후의 제1 특징맵 중 각 특징 값은 이미지의 전역 정보를 모두 고려하기에, 증강 처리 후의 제1 특징맵은 상기 인식할 이미지의 전역 정보를 특성화할 수 있으며, 증강 처리 후의 제1 특징맵에 기반하여 인식할 이미지에 대해 텍스트 인식을 수행하여, 텍스트 인식의 정확성을 향상할 수 있다.
아래 상기 실시예 중 제1 차원, 제2 차원 및 제3 차원의 구체적인 표현 형태에 대해 설명하도록 한다.
본 발명의 일 실시예에서, 상기 제1 차원은 깊이 차원이고, 상기 제2 차원은 폭 차원이며, 상기 제3 차원은 높이 차원이다.
인식할 이미지에 대해 특징 추출을 수행할 경우 하기의 두 가지 상황이 존재할 수 있다.
한 가지 상황에서, 상기 인식할 이미지가 RGB 등 포맷의 멀티 채널 이미지일 경우, 인식할 이미지에 대해 특징 추출을 수행하는 것은 각 채널의 이미지에 대해 각각 특징 추출을 수행해야 하며, 이렇게 얻은 특징맵은 여러 장의 2차원 특징맵으로 형성된 3차원 특징맵이고, 이 경우, 상기 깊이 차원과 이미지의 채널은 서로 대응되며, 깊이 차원의 최대 차원 값은 이미지의 채널 개수이다.
다른 한 가지 상황에서, 상징성이 비교적 강한 특징맵을 획득하기 위해, 통상적으로 인식할 이미지에 대해 여러 차례 특징 추출을 수행해야 하며, 매번의 특징 추출에서 하나의 2차원 특징맵을 획득할 수 있고, 여러 번의 특징 추출에서는 여러 장의 2차원 특징맵을 획득할 수 있으며, 상기 여러 장의 2차원 특징맵은 3차원 특징맵을 형성할 수 있고, 이 경우, 상기 깊이 차원과 이미지 특징 추출의 횟수는 서로 대응되며, 깊이 차원의 최대 차원 값은 이미지 특징 추출의 횟수이다.
상기 두 가지 상황에 기반하면, 제1 차원이 깊이 차원이고, 제2 차원이 폭 차원이며, 제3 차원이 높이 차원일 경우, 제1 특징맵 중 제1 차원의 하나의 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값은 높이 차원 및 폭 차원에 따라 2차원 특징맵을 형성할 수 있고, 이로써 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하는 것은 2차원 특징맵 중의 특징 값을 재구성하는 것에 해당되며, 하나의 2차원 특징맵에 대한 특징 값을 재구성하여 다른 2차원 특징맵이 일으키는 간섭을 방지함으로써, 상기 1차원 특징 데이터의 획득에 유리하다.
아래 상기 단계(S102)에서 제1 특징맵 중 각 특징 값에 대해 특징 증강 처리를 수행하는 것을 설명한다.
본 발명의 일 실시예에서, 도 2를 참조하면, 두 번째 텍스트 인식 방법의 흐름 모식도를 제공하는 바, 본 실시예에서, 상기 제1 특징맵은 3차원 특징맵이고, 상기 텍스트 인식 방법은 하기의 단계(S201) ~ 단계(S206)을 포함한다.
단계(S201)에서, 인식할 이미지의 다차원 제1 특징맵을 획득한다.
상기 단계(S201)과 전술한 단계(S101)은 동일하므로, 여기서 더 서술하지 않는다.
단계(S202)에서, 3개의 차원 중 제1 차원의 각 차원 값에 대해, 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻는다.
일 실시형태에서, 상기 제1 특징맵의 3개의 차원은 깊이 차원, 폭 차원, 높이 차원일 수 있다.
예를 들면, 상기 제1 특징맵은 C*H*W의 특징맵으로 표시할 수 있는 바, 여기서, C는 제1 특징맵의 깊이 차원을 표시하고, 상기 차원의 차원 값은 1로부터 인식할 이미지까지의 채널수일 수 있으며, H는 제1 특징맵의 높이 차원을 표시하고, 상기 차원의 차원 값은 1로부터 제1 특징맵까지의 열 최대 픽셀수일 수 있으며, W는 제1 특징맵의 폭 차원을 표시하고, 상기 차원의 차원 값은 1로부터 제1 특징맵까지의 행 최대 픽셀수일 수 있다.
제1 특징맵의 높이 차원 H를 예로 들면, 제1 특징맵의 열 최대 픽셀수가 20이면, 제1 특징맵의 높이 차원의 차원 값은 1, 2, 3, 4……18, 19, 20일 수 있다.
상기 제1 특징맵 중 각 특징 값은 상기 3개의 차원에서 모두 각자 대응되는 차원 값을 구비한다.
예를 들면, 하나의 특징 값이 3개의 차원에서의 좌표는 (c1, h1, w1)이고, 상기 특징 값이 제1 특징맵의 깊이 차원에서의 차원 값은 c1이며, 높이 차원에서의 차원 값은 h1이고, 폭 차원에서의 차원 값은 w1인 것을 표시한다.
제1 차원의 각 차원 값에 대해, 표현의 편의를 위해 상기 차원 값을 V로 표시하고, 상기 차원 값(V) 하의 제2 차원 및 제3 차원에 대응되는 특징 값은, 상기 제1 특징맵에 포함되는 각각의 특징 값 중 제1 차원에서의 차원 값이 상기 차원 값(V)의 각각의 특징 값인 것을 표시한다.
구체적으로는, 제1 차원의 하나의 차원 값 하의, 제2 차원 및 제3 차원에 대응되는 특징 값은 2차원 데이터에 속하고, 이러한 2차원 데이터는 한 장의 2차원 특징맵을 형성하며, 그러므로, 제1 차원의 각 차원 값에 대해, 상기 차원 값 하의 제2 차원 및 제3 차원에 대응되는 특징 값은 상기 차원 값 하의 2차원 특징맵에 포함되는 특징 값으로 이해할 수 있다. 이에 기반하여, 상기 대응되는 특징 값을 재구성하여 1차원 특징 데이터를 얻는 것은, 상기 2차원 특징맵에 대해 차원 변환을 수행하여, 1차원 특징 데이터를 얻고, 상기 1차원 특징 데이터에는 2차원 특징맵 중의 각각의 특징 값이 포함되는 것으로 이해할 수 있다.
예를 들면, 2차원 특징맵 중의 특징 값을 행의 시작과 끝에 따라 상접하여 1차원 특징 데이터로 변환시킬 수 있고, 물론 2차원 특징맵 중의 특징 값을 열의 시작과 끝에 따라 상접하여 1차원 특징 데이터로 변환시킬 수도 있으며, 본 발명의 실시예는 이를 한정하지 않는다.
단계(S203)에서, 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득한다.
상기 제2 특징맵은 2차원 이미지이고, 두 개의 차원을 구비하며, 그중 하나의 차원은 제1 차원에 대응되고, 그 차원 값은 제1 차원의 차원 값과 동일하며, 표현의 편의를 위해 차원 X로 칭할 수 있고; 다른 하나의 차원은 제2 차원 및 제3 차원에 대응되며, 그 차원 값은 1-병합 차원 값이고, 병합 차원 값은 제2 차원의 최대 차원 값과 제3 차원의 최대 차원 값의 곱이며, 표현의 편의를 위해 상기 차원을 차원 Y로 칭할 수 있다.
예를 들면, 상기 차원 X는 제2 특징맵 중 픽셀 행 차원에 대응될 수 있고, 차원 Y는 제2 특징맵 중 픽셀 열 차원에 대응될 수 있으며, 이렇게 X의 값이 고정될 경우, 픽셀 행은 고정되고, 상기 픽셀 행에는 차원 Y의 각각의 Y의 값의 대응 특징 값이 포함되며, 다시 말해, 각 픽셀 행은 제1 차원의 하나의 차원 값에 대응되고, 상기 픽셀 행에서 각 픽셀 값은 각각 상기 픽셀 행에 대응되는 차원 값에 대응되는 1차원 특징 데이터 중의 특징 값이다.
상기 상황을 감안하면, 본 발명의 일 실시예에서, 제1 차원의 각 차원 값의 배열 순서에 따라, 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 배열하여, 각 1차원 특징 데이터를 포함하는 2차원 특징 데이터를 형성하여, 2차원 제2 특징맵으로 사용할 수 있다.
구체적으로는, 1차원 특징 데이터를 배열할 경우, 1차원 특징 데이터를 행으로 배열할 수 있고, 1차원 특징 데이터를 열로 배열할 수도 있다.
예를 들면, 제1 차원의 차원 값 1이 1차원 특징 데이터 [m11, m12……m1n]에 대응되고, 제1 차원의 차원 값 2가 1차원 특징 데이터 [m21, m22……m2n]에 대응되며, 제1 차원의 차원 값 3이 1차원 특징 데이터 [m31, m32……m3n]에 대응되면, 1차원 특징 데이터를 행으로, 제1 차원의 각 차원 값이 작은 것으로부터 큰 것으로의 배열 순서에 따라, 제2 특징맵에 포함되는 데이터를 얻을 수 있는 바, 하기와 같다.
Figure pat00001
상기 제2 특징맵에서 보다시피, 차원 X의 차원 값 1은 1차원 특징 데이터 [m11, m12……m1n]에 대응되고, 차원 X의 차원 값 2는 1차원 특징 데이터 [m21, m22……m2n]에 대응되며, 차원 X의 차원 값 3은 1차원 특징 데이터 [m31, m32……m3n]에 대응된다.
단계(S204)에서, 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는다.
제2 특징맵은 2차원 이미지이므로, 하나의 차원에서 보면, 제2 특징맵이 복수 개의 1차원 특징 데이터를 포함하는 것으로 간주할 수 있다. 이에 감안하여, 상이한 차원에서, 제2 특징맵 중의 1차원 특징 데이터는 두 가지 타입의 특징 데이터로 구별될 수 있다.
제1 타입 특징 데이터는 제2 특징맵이 차원 X에서 각 차원 값에 대응되는 1차원 특징 데이터이고, 이 경우, 각 1차원 특징 데이터는 상기 차원 값 하의 차원 Y의 각각의 차원 값에 대응되는 특징 값을 포함하며, 포함되는 특징 값의 개수는 차원 Y의 차원 값의 개수와 같다.
제2 타입 특징 데이터는 제2 특징맵이 차원 Y에서 각 차원 값에 대응되는 1차원 특징 데이터이고, 이 경우, 각 1차원 특징 데이터는 상기 차원 값 하의 차원 X의 각각의 차원 값에 대응되는 특징 값을 포함하며, 포함되는 특징 값의 개수는 차원 X의 차원 값의 개수와 같다.
상기로부터 보다시피, 제2 특징맵 중 각 1차원 특징 데이터는 모두 복수 개의 특징 값을 포함하고, 정규화 처리를 수행할 경우, 각 1차원 특징 데이터를 단위로, 각 1차원 특징 데이터 중의 각각의 특징 값에 대해 정규화 처리를 수행한다.
아래 정규화 처리에 대해 설명하도록 한다.
본 발명의 일 실시예에서, 제2 특징맵은 2차원 이미지이고, 차원 X 및 차원 Y 두 개의 차원을 포함하며, 이렇게 정규화 처리를 수행할 경우, 우선 상기 두 개의 차원 중 하나의 차원에 대응되는 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행할 수 있고, 정규화 처리 결과를 얻은 기초상에서, 다른 하나의 차원에 대응되는 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는다.
일 실시형태에서, 우선 차원 X에 대응되는 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행할 수 있고, 정규화 처리 결과를 얻은 기초상에서, 차원 Y에 대응되는 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행한다. 다시 말해, 우선 각 제1 타입 특징 데이터에 대해 정규화 처리를 수행하고, 그 다음 처리 결과를 얻은 기초상에서, 각 제2 타입 특징 데이터에 대해 정규화 처리를 수행한다.
다른 실시형태에서, 우선 차원 Y에 대응되는 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행할 수 있고, 정규화 처리 결과를 얻은 기초상에서, 차원 X에 대응되는 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행한다. 다시 말해, 우선 각 제2 타입 특징 데이터에 대해 정규화 처리를 수행하고, 그 다음 처리 결과를 얻은 기초상에서, 각 제1 타입 특징 데이터에 대해 정규화 처리를 수행한다.
정규화 처리를 구현하는 구체적인 실시형태는 후속적인 도 3에 도시된 실시예 중 단계(S304) ~ 단계(S305)를 참조 가능하며, 여기서 잠시 상세하게 서술하지 않는다.
정규화 처리가 단지 특징 값의 값을 개변하므로, 이미지의 크기를 개변하지는 않으므로, 정규화 처리 후 얻은 제3 특징맵과 상기 제2 특징맵의 차원은 동일하고 크기도 동일하다. 제2 특징맵이 C*(H*W)의 특징맵이면, 제3 특징맵은 마찬가지로 C*(H*W)의 특징맵이다.
단계(S205)에서, 제3 특징맵에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행한다.
제3 특징맵은 2차원 이미지이고, 제1 특징맵은 3차원 이미지이다. 예를 들면, 제3 특징맵은 C*(H*W)의 2차원 이미지로 표시할 수 있고, 제1 특징맵은 C*H*W의 3차원 이미지로 표시할 수 있다. 이렇게 제3 특징맵에 대해 말하자면, 그 두 개의 차원은 각각 C 및 H*W에 대응되고, 제1 특징맵에 대해 말하자면, 그 3개의 차원은 각각 C, H 및 W에 대응되므로, 우선 이 두 개의 특징맵의 차원을 통일하고, 그 다음 제1 특징맵 및 제3 특징맵 차원 통일의 기초상에서 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행할 수 있다.
제1 특징맵 및 제3 특징맵의 차원을 통일하고, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계의 구체적인 실시형태는 후속적인 도 4에 도시된 실시예 중 단계(S405) ~ 단계(S406)의 서술을 참조 가능하므로, 여기서 잠시 상세하게 서술하지 않는다.
단계(S206)에서, 증강 처리 후의 제1 특징맵에 기반하여, 인식할 이미지에 대해 텍스트 인식을 수행한다.
상기 단계(S206)과 전술한 단계(S103)은 동일하므로, 여기서 더 서술하지 않는다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하는 것은 상기 1차원 특징 데이터에 포함되는 모든 특징 값을 이용하여 구현되므로, 정규화 처리 후의 1차원 특징 데이터 중 각 특징 값은 상기 1차원 특징 데이터 중 모든 특징 값의 영향을 받는다. 이 기초상에서 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 모두 정규화 처리를 수행하여, 제3 특징맵 중의 각 특징 값이 모두 제1 특징맵 중 모든 특징 값의 영향을 받도록 하므로, 제3 특징맵은 전역 특징의 각도에서 인식할 이미지를 특성화할 수 있다. 이렇게 제3 특징맵에 기반하여, 제1 특징맵 중 각 특징 값에 대해 특징 증강 처리를 수행한 후, 수용야가 전체 인식할 이미지인 특징맵을 얻을 수 있으며, 텍스트 인식의 특징맵의 수용야를 확대하였고, 따라서, 인식할 이미지에 대해 텍스트 인식을 수행하는 정확성을 향상할 수 있다.
아래 상기 단계(S204) 중 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여 제3 특징맵을 얻는 것을 설명한다.
본 발명의 일 실시예에서, 도 3을 참조하면, 세 번째 텍스트 인식 방법의 흐름 모식도를 제공하는 바, 본 실시예에서, 상기 텍스트 인식 방법은 하기의 단계(S301) ~ 단계(S307)을 포함한다.
단계(S301)에서, 인식할 이미지의 다차원 제1 특징맵을 획득한다.
단계(S302)에서, 3개의 차원 중 제1 차원의 각 차원 값에 대해, 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻는다.
단계(S303)에서, 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득한다.
상기 단계(S301)과 전술한 단계(S101)은 동일하고, 상기 단계(S302) ~ 단계(S303)과 전술한 단계(S202) ~ 단계(S203)은 각각 상이하며, 여기서 더 서술하지 않는다.
단계(S304)에서, 제2 특징맵 중 각 제1 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행한다.
여기서, 제1 특징 데이터는 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터이다.
앞서 서술로부터 알 수 있다시피, 상기 제2 특징맵은 차원 X 및 차원 Y 이 두 개의 차원을 구비하고, 차원 X는 제1 차원에 대응되며, 차원 Y는 제2 차원 및 제3 차원과 서로 대응된다. 이에 감안하여, 상기 제1 특징 데이터는, 제2 특징맵이 차원 X에서 각 차원 값에 대응되는 1차원 특징 데이터이고, 다시 말해, 앞서 단계(S204)에서 언급된 제1 타입 특징 데이터이다.
각 제1 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행할 경우, 제1 특징 데이터를 단위로 정규화 처리를 수행한다. 이로써 하나의 제1 특징 데이터에 대해 말하자면, 상기 제1 특징 데이터에 포함되는 특징 값을 사용하여, 상기 제1 특징 데이터에 포함되는 각각의 특징 값에 대해 정규화 처리를 수행한다.
본 발명의 일 실시예에서, softmax 알고리즘을 통해 제1 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하는 것을 구현할 수 있다. 본 발명의 다른 실시예에서, L1Normalize 알고리즘, L2Normalize 알고리즘 등 정규화 알고리즘을 통해 정규화 처리를 구현할 수도 있으며, 여기서 더 이상 설명하지 않는다.
단계(S305)에서, 정규화 처리 후의 제2 특징맵 중 각 제2 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행한다.
여기서, 제2 특징 데이터는 병합 차원의 각 차원 값에 대응되는 1차원 특징 데이터이고, 병합 차원은 제2 특징맵 중 제2 차원 및 제3 차원에 대응되는 차원이다. 위의 설명에 결부하면 알 수 있는 바, 상기 병합 차원은 즉 상기 차원 Y이고, 이렇게 되면 상기 제2 특징 데이터는 제2 특징맵이 차원 Y에서 각 차원 값에 대응되는 1차원 특징 데이터이며, 다시 말해, 이전 단계(S204)에서 언급된 제2 타입 특징 데이터이다.
각 제2 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행할 경우, 제2 특징 데이터를 단위로 정규화 처리를 수행한다. 이렇게 하나의 제2 특징 데이터에 대해 말하자면, 상기 제2 특징 데이터에 포함되는 특징 값을 사용하여, 상기 제2 특징 데이터에 포함되는 각각의 특징 값에 대해 정규화 처리를 수행한다.
제2 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하는 것은 마찬가지로 softmax알고리즘, L1Normalize알고리즘, L2Normalize알고리즘 등 정규화 알고리즘에 기반하여 구현될 수 있다.
단계(S306)에서, 제3 특징맵에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행한다.
단계(S307)에서, 증강 처리 후의 제1 특징맵에 기반하여, 인식할 이미지에 대해 텍스트 인식을 수행한다.
상기 단계(S306)과 전술한 단계(S205)은 동일하고, 상기 단계(S307)과 전술한 단계(S103)과 동일하며, 여기서 더 서술하지 않는다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단에서, 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여 제3 특징맵을 얻을 경우, 우선 제1 차원의 각 차원 값에 대응되는 제1 특징 데이터에 대해 정규화 처리를 수행하고, 그 다음 정규화 처리의 기초상에서, 병합 차원의 각 차원 값에 대응되는 제2 특징 데이터에 대해 정규화 처리를 수행한다. 제1 특징 데이터에 포함되는 특징 값의 개수는 병합 차원의 차원 값 개수와 동일하며, 병합 차원의 차원 값 개수는 흔히 제1 차원의 차원 값 개수보다 크므로, 먼저 제1 특징 데이터에 대해 정규화 처리를 수행하면 후속적인 정규화 처리에 더 풍부한 기준 데이터를 제공할 수 있으며, 획득된 제3 특징맵의 정확성의 향상에 유리하다.
본 발명의 다른 실시예에서, 상기 도 3에 도시된 실시예와 유사하며, 상기 단계(S303)을 수행 완료한 후, 우선 상기 단계(S305)를 수행하여 각 제2 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행할 수 있으며, 그 다음 정규화 처리 결과의 기초상에서 상기 단계(S304)를 수행하여 각 제1 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행한다.
아래 상기 단계(S205)에서 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계를 설명한다.
본 발명의 일 실시예에서, 도 4를 참조하면, 네 번째 텍스트 인식 방법의 흐름 모식도를 제공하는 바, 본 실시예에서, 상기 텍스트 인식 방법은 하기의 단계(S401) ~ 단계(S407)을 포함한다.
단계(S401)에서, 인식할 이미지의 다차원 제1 특징맵을 획득한다.
단계(S402)에서, 3개의 차원 중 제1 차원의 각 차원 값에 대해, 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻는다.
단계(S403)에서, 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득한다.
단계(S404)에서, 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는다.
상기 단계(S401)과 전술한 단계(S101)은 동일하고, 상기 단계(S402) ~ 단계(S404)와 전술한 단계(S202) ~ 단계(S204)는 동일하며, 여기서 더 서술하지 않는다.
단계(S405)에서, 제1 처리 대기 이미지에 대해 차원 변환을 수행하여, 제2 처리 대기 이미지 차원과 동일한 제3 처리 대기 이미지를 얻는다.
여기서, 제1 처리 대기 이미지는 제3 특징맵 또는 제1 특징맵이고, 제2 처리 대기 이미지는 제3 특징맵 및 제1 특징맵에서 제1 처리 대기 이미지를 제외한 이미지이다.
본 발명의 일 실시예에서, 상기 제1 처리 대기 이미지는 제3 특징맵이고, 상기 제2 처리 대기 이미지는 제1 특징맵이다.
상기 제3 특징맵은 2차원 이미지이고, 상기 제1 특징맵은 3차원 이미지이며, 따라서, 2차원의 제3 특징맵을 3차원의 특징맵으로 변환할 수 있고, 변환 후 얻은 3차원의 특징맵을 상기 제3 처리 대기 이미지로 사용한다.
제3 특징맵을 3차원의 특징맵으로 변환하는 구체적인 실시형태는, 후속적인 실시예에서 설명되며, 여기서 잠시 상세하게 서술하지 않는다.
본 발명의 다른 실시예에서, 상기 제1 처리 대기 이미지는 제1 특징맵이고, 상기 제2 처리 대기 이미지는 제3 특징맵이다.
이 경우, 3차원의 제1 특징맵을 2차원의 특징맵으로 변환할 수 있고, 변환 후 얻은 2차원의 특징맵을 상기 제3 처리 대기 이미지로 사용한다.
3차원의 제1 특징맵을 2차원의 특징맵으로 변환하는 것은 상기 단계(S202) ~ 단계(S203)을 통해 구현될 수 있으므로, 직접 상기 2차원의 제2 특징맵을 상기 제3 처리 대기 이미지로 사용할 수 있다.
단계(S406)에서, 제2 처리 대기 이미지와 제3 처리 대기 이미지 중 동일 위치의 특징 값을 덧셈 연산하여, 연산된 이미지를 얻고 증강 처리 후의 제1 특징맵으로 사용한다.
제2 처리 대기 이미지의 차원과 제3 처리 대기 이미지의 차원이 동일하고, 또한 제2 처리 대기 이미지의 크기는 제3 처리 대기 이미지의 크기와 동일할 수 있므로, 제2 처리 대기 이미지 및 제3 처리 대기 이미지에서 여러 그룹의 동일한 위치의 두 개의 특징 값을 결정할 수 있고, 각 그룹 중의 두 개의 특징 값을 서로 더하여, 연산된 이미지를 얻을 수 있다.
아래 제1 처리 대기 이미지 및 제2 처리 대기 이미지의 구체적인 상황에 결부하여 각각 설명한다.
상황 1에서, 상기 제1 처리 대기 이미지가 제3 특징맵이고, 상기 제2 처리 대기 이미지가 제1 특징맵인 경우, 상기 제3 처리 대기 이미지는 3차원 이미지이고, 제2 처리 대기 이미지와 제3 처리 대기 이미지 중 동일 위치의 특징 값을 덧셈 연산하여, 3차원의 연산된 이미지를 얻을 수 있으며, 증강 처리 후의 제1 특징맵으로 사용한다.
상황 2에서, 상기 제1 처리 대기 이미지가 제1 특징맵이고, 상기 제2 처리 대기 이미지가 제3 특징맵인 경우, 상기 제3 처리 대기 이미지는 2차원 이미지이고, 제2 처리 대기 이미지와 제3 처리 대기 이미지 중 동일 위치의 특징 값을 덧셈 연산하여, 2차원의 연산된 이미지를 얻을 수 있으며, 증강 처리 후의 제1 특징맵으로 사용한다.
단계(S407)에서, 증강 처리 후의 제1 특징맵에 기반하여, 인식할 이미지에 대해 텍스트 인식을 수행한다.
상기 단계(S407)과 전술한 단계(S103)은 동일하므로, 여기서 더 서술하지 않는다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵 및 제3 특징맵 중의 하나의 특징맵에 대해 차원 변환을 수행하여, 차원이 동일한 두 개의 특징맵을 얻고, 이 두 개의 특징맵 중 동일 위치의 특징 값에 대해 덧셈 연산을 수행하여, 연산된 이미지 증강 처리 후의 제1 특징맵으로 사용한다. 제3 특징맵이 전역 이미지 정보를 포함하였기에, 상기 두 개의 차원이 동일한 특징맵 중 동일 위치의 특징 값에 대해 덧셈 연산을 수행하여, 제1 특징맵에 대해 특징 증강 처리를 정확하게 수행할 수 있으며, 나아가 텍스트 인식을 구현한다.
아래 상기 도 4에 도시된 실시예 중 단계(S405)에서, 제3 특징맵을 3차원의 특징맵으로 변환하는 실시 과정을 설명한다.
본 발명의 일 실시예에서, 하기의 단계(1) 및 단계(2)를 통해 2차원의 제3 특징맵을 3차원의 특징맵으로 변환할 수 있다.
단계(1)에서, 제2 차원 및 제3 차원의 차원 값에 따라, 제3 특징맵 중 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 재구성하여, 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 얻는다.
상기 도 2에 도시된 실시예의 단계(S202)의 서술에서 알 수 있다시피, 제1 특징맵 중 제1 차원의 각 차원 값 하의 제2 차원 및 제3 차원에 대응되는 특징 값은 하나의 2차원 특징맵에 포함되는 특징 값으로 간주할 수 있고, 상기 특징 값을 재구성하여 1차원 특징 데이터를 얻는 것은 상기 2차원 특징맵에 대해 차원 변환을 수행하여, 1차원 특징 데이터를 얻는 것으로 이해할 수 있으므로, 상기 단계(S202)는 2차원 특징맵을 1차원 특징 데이터로 변환하는 단계로 간주할 수 있다. 본 단계는 상기 과정과 정반대되며, 1차원 특징 데이터를 2차원 특징맵으로 재구성하는 것을 원하므로, 본 단계는 상기 단계(S202)의 역 과정으로 간주할 수 있다.
구체적으로는, 재구성될 2차원 특징맵은 하나의 2차원 이미지이므로, 제2 차원의 최대 차원 값 및 제3 차원의 최대 차원 값에 따라, 2차원 특징맵이 열 방향에서의 픽셀점 개수 및 행 방향에서의 픽셀점 개수를 결정하고, 각각 첫 번째 수 및 두 번째 수로 표기하며, 그 다음 상기 첫 번째 수 및 두 번째 수에 기반하여 1차원 특징 데이터를 분할하여, 2차원 특징맵을 재구성할 수 있다.
일 실시형태에서, 1차원 특징 데이터을 분할할 경우, 1차원 특징 데이터에서 순차적으로 두 번째 개수의 특징 값을 판독하여, 구축할 2차원 특징맵 중 한 행의 픽셀점의 픽셀 값으로 사용할 수 있고, 상기 과정을 첫 번재 수 횟수로 반복한다.
예를 들면, 상기 1차원 특징 데이터에 600개 특징 값이 포함되고, 제2 차원의 최대 차원 값이 20이며, 제3 차원의 최대 차원 값이 30이면, 상기 첫 번째 수는 20일 수 있고, 두 번째 수는 30일 수 있으며, 구축할 2차원 특징맵은 20x30인 특징맵이다. 이로써 2차원 특징맵을 구축하는 과정에서, 매번 1차원 특징 데이터에서 30개 특징 값을 판독하여 2차원 특징맵 중 한 행의 픽셀점의 픽셀 값으로 사용하고, 20회 반복하여, 2차원 특징맵 구축을 완성할 수 있다.
단계(2)에서, 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 포함하는 3차원 이미지를 획득하여, 제3 처리 대기 이미지로 사용한다.
구체적으로는, 3차원 이미지에서, 각각의 2차원 특징맵은 제1 차원의 각 차원 값에 따라 배열될 수 있다. 예를 들면, 차원 값을 작은 것으로부터 큰 것의 순서에 따라 배열한다.
이상에서 볼 수 있는 바, 본 실시예에서 제공하는 해결수단에서, 3차원 이미지를 구축할 경우, 우선 두 개의 차원에 기반하여 2차원 이미지를 구축하고, 그 다음 세 번째 차원에 따라 구축된 이미지를 정합하여 3차원 이미지를 얻으며, 이로써 3차원 이미지 구축 과정에서 3개 차원의 정보를 충분히 고려하여, 3차원 이미지 구축의 정확도를 향상하였다.
본 발명의 일 실시예에서, 상기 단계(S205)에서 제3 특징맵에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하기 전에, 제1 특징맵에 대해 비선형 변환을 수행할 수도 있다.
비선형 변환이 데이터 사이의 차이 정도를 확대할 수 있고, 제1 특징맵에 대해 비선형 변환을 수행하므로, 제1 특징맵 중 상징성이 비교적 강한 특징 값 및 상징성이 비교적 약한 특징 값 사이의 차이를 확대할 수 있고, 또한 상징성이 비교적 약한 특징 값이 후속적인 특징 증강 처리에 대한 영향이 비교적 크므로, 제1 특징맵에 대해 비선형 변환을 수행하여, 특징 값 사이의 차이 정도를 확대할 수 있고, 이로써 후속적인 특징 증강 처리 과정에서 상징성이 비교적 강한 특징 값을 정확하게 결정함으로써, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 유리하게 수행하여, 텍스트 인식의 정확성을 향상할 수 있다.
구체적으로는, 제1 특징맵에 대해 비선형 변환을 수행하는 것은 기존의 비선형 변환 기술을 통해 구현될 수 있으므로, 여기서 더 이상 설명하지 않는다.
마찬가지로, 상기 단계(S205)에서 제3 특징맵에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하기 전에, 제3 특징맵에 대해 비선형 변환을 수행할 수도 있다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵에 대해 비선형 변환을 수행하여, 제1 특징맵 중 특징 값 사이의 차이 정도를 확대할 수 있고, 제3 특징맵에 대해 비선형 변환을 수행하여, 제3 특징맵 중 특징 값 사이의 차이 정도를 확대할 수 있으며, 제1 특징맵 및/또는 제3 특징맵에 대해 비선형 변환을 수행하는 것을 통해, 후속적인 특징 증강 처리 과정에서 상징성이 비교적 강한 특징 값을 결정하여, 특징 증강 처리에 유리하며, 텍스트 인식의 정확성을 향상할 수 있다.
이 밖에, 상기 단계(S205)를 수행하기 전에, 제1 특징맵 및 제3 특징맵에 대해 모두 비선형 변환을 수행할 수 있고, 제1 특징맵 및 제3 특징맵 중 하나의 특징맵에 대해 비선형 변환을 수행할 수도 있으며, 이로써 실제 수요에 따라 제1 특징맵 및 제3 특징맵에 대해 비선형 변환을 수행해야 하는지 여부를 판정할 수 있으며, 본 발명의 실시예에서 제공하는 텍스트 인식 해결수단의 유연성을 향상할 수 있다.
본 발명의 일 실시예에서, 상기 단계(S101)에서 인식할 이미지의 다차원 제1 특징맵을 획득하는 단계 이후, 제1 특징맵에 대해 비선형 변환을 수행하고 그 다음, 상기 단계(S102)를 수행할 수도 있다.
상기 제1 특징맵에 대해 비선형 변환을 수행하는 단계의 공개 실시예와 유사하게, 제1 특징맵에 대해 비선형 변환을 수행하는 단계는 후속적인 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하여, 텍스트 인식의 정확성을 향상하는 데 유리하다.
이 밖에, 텍스트 인식을 수행하는 과정에서, 상기 실시예에서 언급된3차 비선형 변환은 본 발명의 실시예에서 제공하는 텍스트 인식 해결수단에 모두 응용될 수 있고, 3차 비선형 변환 중의 1차 또는 2차에 응용될 수도 있으며, 3차 비선형 변환은 모두 사용하지 않을 수도 있다.
상기 단계(S102)에서 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행할 경우, 상기 실시예에서 언급된 실시형태를 응용하는 외에도, 하기의 실시예 중 단계(S502) ~ 단계(S504)를 통해 특징 증강 처리를 구현할 수도 있다.
본 발명의 일 실시예에서, 도 5를 참조하면, 다섯 번째 텍스트 인식 방법의 흐름 모식도를 제공하는 바, 본 실시예에서, 제1 특징맵은 3차원 특징맵이고, 상기 텍스트 인식 방법은 하기의 단계(S501) ~ 단계(S505)를 포함한다.
단계(S501)에서, 인식할 이미지의 다차원 제1 특징맵을 획득한다.
상기 단계(S501)는 전술한 단계(S101)과 동일하므로, 여기서 더 서술하지 않는다.
단계(S502)에서, 제1 특징맵 중 각 제3 특징 데이터 사이의 유사도를 산출한다.
여기서, 제3 특징 데이터는 3개의 차원 중 제2 차원 및 제3 차원의 각 차원 값이 제1 차원에 대응되는 특징 값에 조합되는 것을 포함한다.
제2 차원의 하나의 차원 값 및 제3 차원의 하나의 차원 값은 하나의 차원 값 조합을 구성할 수 있고, 이로써 제2 차원의 각각의 차원 값 및 제3 차원 각각의 차원 값은 복수 개의 차원 값 조합을 구성할 수 있다.
각 차원 값 조합에 대해 말하자면, 제2 차원 및 제3 차원 상의 차원 값은 이미 결정된 것이고, 상기 차원 값 조합은 제1 차원의 각 차원 값과 서로 결합될 수 있으며, 제1 특징맵 중 결합한 후의 정보에 대응되는 특징 값을 결정할 수 있다. 상기 상황을 감안하면, 각 제3 특징 데이터는 복수 개의 특징 값을 포함하고, 포함되는 특징 값의 개수와 제1 차원의 최대 차원 값은 동일하다.
일 실시형태에서, 상기 유사도를 산출할 경우, 제3 특징 데이터을 기설정 벡터 공간 중의 특징 벡터로 전환할 수 있고, 각각의 특징 벡터 사이의 유사도를 산출하는 것을 통해, 특징 벡터와 대응되는 제3 특징 데이터 사이의 유사도를 얻을 수 있다.
단계(S503)에서, 산출하여 얻은 모든 유사도에 기반하여, 산출하여 얻은 각 유사도에 대해 정규화 처리를 수행한다.
유사도에 대해 정규화 처리를 수행하는 것은 softmax알고리즘, L1Normalize알고리즘, L2Normalize알고리즘 등 정규화 알고리즘을 통해 구현될 수 있다.
단계(S504)에서, 정규화 처리 후의 유사도에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행한다.
구체적으로는, 정규화 처리 후의 유사도를 사용하여, 제1 특징맵 중의 각 특징 값에 대해 선형 가중을 수행하여, 특징 증강을 구현할 수 있다. 여기서, 정규화 처리 후의 유사도를 선형 가중의 가중 계수로 사용할 수 있다.
단계(S505)에서, 증강 처리 후의 제1 특징맵에 기반하여, 인식할 이미지에 대해 텍스트 인식을 수행한다.
상기 단계(S505)는 전술한 단계(S103)와 동일하므로, 여기서 더 서술하지 않는다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵 중 각 제3 특징 데이터 사이의 유사도를 산출하고, 그 다음 산출하여 얻은 모든 유사도를 사용하여 산출하여 얻은 각 유사도에 대해 정규화 처리를 수행하며, 이로써 정규화 처리 후의 유사도는 전역 특징을 종합한 후 각 제3 특징 데이터 사이의 유사도를 반역할 수 있으므로, 정규화 처리 후의 유사도는 전역 이미지 정보를 포함하고, 이로써 정규화 처리 후의 유사도에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하여 전역 이미지 정보를 고려하여, 특징 증강 후의 제1 특징맵이 전역 수용야을 구비하도록 하고, 전역 수용야를 구비하는 제1 특징맵에 기반하여 인식할 이미지에 대해 텍스트 인식을 수행하여 텍스트 인식의 정확성을 향상할 수 있다.
상기 텍스트 인식 방법에 대응되게, 본 발명의 실시예에서는 텍스트 인식 장치를 더 제공한다.
도 6을 참조하면, 도 6은 본 발명의 실시예에서는 첫 번째 텍스트 인식 장치의 구조 모식도를 제공하는 바,
인식할 이미지의 다차원 제1 특징맵을 획득하는 특징 획득 모듈(601);
상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 특징 증강 모듈(602); 및
증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하는 텍스트 인식 모듈(603)을 포함한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 우선 인식할 이미지의 다차원 제1 특징맵을 획득하고, 그 다음 제1 특징맵 중의 각각의 특징 값에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하며, 증강 처리 후의 제1 특징맵에 기반하여 텍스트 인식을 수행함으로써, 인식할 이미지에 대해 텍스트 인식을 수행하는 것을 구현할 수 있다.
이 밖에, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행할 경우, 제1 특징맵 중 각각의 특징 값에 기반하여, 각 특징 값을 처리함으로써, 증강 처리 후의 제1 특징맵 중 각 특징 값은 이미지의 전역 정보를 모두 고려하기에, 증강 처리 후의 제1 특징맵은 상기 인식할 이미지의 전역 정보를 특성화할 수 있으며, 증강 처리 후의 제1 특징맵에 기반하여 인식할 이미지에 대해 텍스트 인식을 수행하여, 텍스트 인식의 정확성을 향상할 수 있다.
본 발명의 일 실시예에서, 도 7을 참조하면, 두 번째 텍스트 인식 장치의 구조 모식도를 제공하는 바, 본 실시예에서, 상기 텍스트 인식 장치는,
인식할 이미지의 다차원 제1 특징맵을 획득하는 특징 획득 모듈(701);
3개의 차원 중 제1 차원의 각 차원 값에 대해, 상기 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻는 특징 재구성 서브 모듈(702);
상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득하는 특징 획득 서브 모듈(703);
상기 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는 정규화 처리 서브 모듈(704);
상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 특징 증강 서브 모듈(705); 및
증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하는 텍스트 인식 모듈(706)을 포함한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하는 것은 상기 1차원 특징 데이터에 포함되는 모든 특징 값을 이용하여 구현되므로, 정규화 처리 후의 1차원 특징 데이터 중 각 특징 값은 상기 1차원 특징 데이터 중 모든 특징 값의 영향을 받는다. 이 기초상에서 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 모두 정규화 처리를 수행하여, 제3 특징맵 중의 각 특징 값이 모두 제1 특징맵 중 모든 특징 값의 영향을 받도록 하므로, 제3 특징맵은 전역 특징의 각도에서 인식할 이미지를 특성화한다. 이렇게 제3 특징맵에 기반하여, 제1 특징맵 중 각 특징 값에 대해 특징 증강 처리를 수행한 후, 수용야가 전체 인식할 이미지인 특징맵을 얻을 수 있으며, 텍스트 인식의 특징맵의 수용야를 확대하였고, 따라서, 인식할 이미지에 대해 텍스트 인식을 수행하는 정확성을 향상할 수 있다.
본 발명의 일 실시예에서, 도 8을 참조하면, 세 번째 텍스트 인식 장치의 구조 모식도를 제공하는 바, 본 실시예에서, 상기 텍스트 인식 장치는,
인식할 이미지의 다차원 제1 특징맵을 획득하는 특징 획득 모듈(801);
3개의 차원 중 제1 차원의 각 차원 값에 대해, 상기 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻는 특징 재구성 서브 모듈(802);
상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득하는 특징 획득 서브 모듈(803);
상기 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는 정규화 처리 서브 모듈(804);
제1 처리 대기 이미지에 대해 차원 변환을 수행하여, 제2 처리 대기 이미지 차원과 동일한 제3 처리 대기 이미지를 얻되, 상기 제1 처리 대기 이미지는 상기 제3 특징맵 또는 상기 제1 특징맵이고, 상기 제2 처리 대기 이미지는 상기 제3 특징맵 및 상기 제1 특징맵에서 상기 제1 처리 대기 이미지를 제외한 이미지인 차원 변환 유닛(805);
상기 제2 처리 대기 이미지와 제3 처리 대기 이미지 중 동일 위치의 특징 값을 덧셈 연산하여, 연산된 이미지를 얻고 증강 처리 후의 제1 특징맵으로 사용하는 특징 값 연산 유닛(806); 및
증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하는 텍스트 인식 모듈(807)을 포함한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵 및 제3 특징맵 중의 하나의 특징맵에 대해 차원 변환을 수행하여, 차원이 동일한 두 개의 특징맵을 얻고, 이 두 개의 특징맵 중 동일 위치의 특징 값에 대해 덧셈 연산을 수행하여, 연산된 이미지 증강 처리 후의 제1 특징맵으로 사용한다. 제3 특징맵이 전역 이미지 정보를 포함하였기에, 상기 두 개의 차원이 동일한 특징맵 중 동일 위치의 특징 값에 대해 덧셈 연산을 수행하여, 제1 특징맵에 대해 특징 증강 처리를 정확하게 수행할 수 있으며, 나아가 텍스트 인식을 구현한다.
본 발명의 일 실시예에서, 상기 제1 처리 대기 이미지는 상기 제3 특징맵이고, 상기 제2 처리 대기 이미지는 상기 제1 특징맵이며;
상기 차원 변환 유닛(805)은 구체적으로,
상기 제2 차원 및 제3 차원의 차원 값에 따라, 상기 제3 특징맵 중 상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 재구성하여, 상기 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 얻고;
상기 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 포함하는 3차원 이미지를 획득하여, 제3 처리 대기 이미지로 사용한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 3차원 이미지를 구축할 경우, 우선 두 개의 차원에 기반하여 2차원 이미지를 구축하고, 그 다음 세 번째 차원에 따라 구축된 이미지를 정합하여 3차원 이미지를 얻으며, 이로써 3차원 이미지를 구축하는 과정에서 3개 차원의 정보를 충분히 고려하여, 3차원 이미지 구축의 정확도를 향상한다.
본 발명의 일 실시예에서, 상기 정규화 처리 서브 모듈(704)은 구체적으로,
상기 제2 특징맵 중 각 제1 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하고, 여기서, 상기 제1 특징 데이터는 상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터이며;
정규화 처리 후의 제2 특징맵 중 각 제2 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하고, 여기서, 상기 제2 특징 데이터는 병합 차원의 각 차원 값에 대응되는 1차원 특징 데이터이고, 상기 병합 차원은 상기 제2 특징맵 중 상기 제2 차원 및 제3 차원에 대응되는 차원이다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단에서, 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여 제3 특징맵을 얻을 경우, 우선 제1 차원의 각 차원 값에 대응되는 제1 특징 데이터에 대해 정규화 처리를 수행하고, 그 다음 정규화 처리의 기초상에서, 병합 차원의 각 차원 값에 대응되는 제2 특징 데이터에 대해 정규화 처리를 수행한다. 제1 특징 데이터에 포함되는 특징 값의 개수와 병합 차원의 차원 값 개수가 동일하고, 병합 차원의 차원 값 개수는 또 흔히 제1 차원의 차원 값 개수보다 크므로, 우선 제1 특징 데이터에 대해 정규화 처리를 수행하여 후속적으로 정규화 처리를 수행하여 더 풍부한 기준 데이터를 제공하여, 획득한 제3 특징맵의 정확성을 향상하는 데 유리하다.
본 발명의 일 실시예에서, 상기 제1 차원은 깊이 차원이고, 상기 제2 차원은 폭 차원이며, 상기 제3 차원은 높이 차원이다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵 중 제1 차원의 하나의 차원 값 하의 제2 차원 및 제3 차원에 대응되는 특징 값은 높이 차원 및 폭 차원에 따라 2차원 특징맵을 형성할 수 있고, 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하는 것은 2차원 특징맵 중의 특징 값을 재구성하는 것에 해당되며, 하나의 2차원 특징맵의 특징 값을 재구성하는 것은 다른 2차원 특징맵의 간섭을 방지함으로써, 상기 1차원 특징 데이터의 획득에 유리하다.
본 발명의 일 실시예에서, 도 9를 참조하면, 네 번째 텍스트 인식 장치의 구조 모식도를 제공하는 바, 본 실시예에서, 상기 텍스트 인식 장치는,
인식할 이미지의 다차원 제1 특징맵을 획득하는 특징 획득 모듈(901);
3개의 차원 중 제1 차원의 각 차원 값에 대해, 상기 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻는 특징 재구성 서브 모듈(902);
상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득하는 특징 획득 서브 모듈(903);
상기 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는 정규화 처리 서브 모듈(904);
상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하기 전에, 상기 제1 특징맵 및/또는 제3 특징맵에 대해 비선형 변환을 수행하는 비선형 변환 서브 모듈(905);
상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 특징 증강 서브 모듈(906); 및
증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하는 텍스트 인식 모듈(907)을 포함한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵에 대해 비선형 변환을 수행하여, 제1 특징맵 중 특징 값 사이의 차이 정도를 확대할 수 있으며, 제3 특징맵에 대해 비선형 변환,을 수행하여 제3 특징맵 중 특징 값 사이의 차이 정도를 확대할 수 있고, 제1 특징맵 및/또는 제3 특징맵에 대해 비선형 변환을 수행하는 것을 통해, 후속적인 특징 증강 처리 과정에서 상징성이 비교적 강한 특징 값을 유리하게 결정함으로써, 특징 증강 처리에 유리하여, 텍스트 인식의 정확성을 향상한다.
본 발명의 일 실시예에서, 도 10을 참조하면, 다섯 번째 텍스트 인식 장치의 구조 모식도를 제공하는 바, 본 실시예에서, 상기 장치는,
인식할 이미지의 다차원 제1 특징맵을 획득하는 특징 획득 모듈(1001);
인식할 이미지의 다차원 제1 특징맵을 획득한 이후, 상기 제1 특징맵에 대해 비선형 변환을 수행하는 비선형 변환 모듈(1002);
상기 제1 특징맵 중의 각 특징 값에 대해, 상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 특징 값에 대해 특징 증강 처리를 수행하는 특징 증강 모듈(1003); 및
증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하는 텍스트 인식 모듈(1004)을 포함한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵에 대해 비선형 변환을 수행하는 것은 후속적인 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 것에 유리하고, 텍스트 인식의 정확성을 향상한다.
본 발명의 일 실시예에서, 상기 제1 특징맵은 3차원 특징맵이고, 상기 특징 증강 모듈(602)은 구체적으로,
상기 제1 특징맵 중 각 제3 특징 데이터 사이의 유사도를 산출하고, 여기서, 상기 제3 특징 데이터는 3개의 차원 중 제2 차원 및 제3 차원의 각 차원 값이 제1 차원에 대응되는 특징 값에 조합되는 것을 포함하며;
산출하여 얻은 모든 유사도에 기반하여, 산출하여 얻은 각 유사도에 대해 정규화 처리를 수행하고;
정규화 처리 후의 유사도에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행한다.
이상에서 볼 수 있는 바, 본 발명의 실시예에서 제공하는 해결수단을 응용하여 텍스트 인식을 수행할 경우, 제1 특징맵 중 각 제3 특징 데이터 사이의 유사도를 산출하고, 그 다음 산출하여 얻은 모든 유사도를 사용하여 산출하여 얻은 각 유사도에 대해 정규화 처리를 수행하며, 이로써 정규화 처리 후의 유사도는 전역 특징을 종합한 후 각 제3 특징 데이터 사이의 유사도를 반역할 수 있으므로, 정규화 처리 후의 유사도는 전역 이미지 정보를 포함하고, 이로써 정규화 처리 후의 유사도에 기반하여, 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하여 전역 이미지 정보를 고려하여, 특징 증강 후의 제1 특징맵이 전역 수용야을 구비하도록 하고, 전역 수용야를 구비하는 제1 특징맵에 기반하여 인식할 이미지에 대해 텍스트 인식을 수행하여 텍스트 인식의 정확성을 향상할 수 있다.
본 발명의 실시예에 따르면, 본 발명에서는 전자 기기, 판독 가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.
본 발명의 일 실시예에서, 전자 기기를 제공하는 바,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되; 여기서,
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 전술한 방법 실시예 중의 어느 하나의 텍스트 인식 방법을 수행할 수 있도록 한다.
본 발명의 일 실시예에서, 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하는 바, 여기서, 상기 컴퓨터 명령은 상기 컴퓨터가 전술한 방법 실시예 중 어느 하나의 텍스트 인식 방법을 수행하도록 한다.
본 발명의 일 실시예에서, 컴퓨터 프로그램을 제공하는 바, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 전술한 방법 실시예 중 어느 하나의 텍스트 인식 방법을 구현한다.
도 11은 본 발명의 실시예의 구현예를 실시하기 위한 전자 기기(1100)의 예시적인 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 운영 플랫폼, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 다른 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 의미한다. 전자 기기는 개인 디지털 처리, 셀룰러폰, 스마트폰, 웨어러블 기기 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 이동 장치를 의미할 수도 있다. 본문에서 나타낸 부재, 이들의 연결과 관계, 및 이들의 기능은 단지 예시적인 것으로, 본문에서 설명 및/또는 요구된 본 발명의 구현을 한정하지 않는다.
도 11에 도시된 바와 같이, 기기(1100)는 컴퓨팅 유닛(1101)을 포함하고, 이는 판독 전용 메모리(ROM)(1102)에 저장된 컴퓨터 프로그램 또는 저장 부분(1108)로부터 랜덤 액세스 메모리(RAM)(1103)에 로딩된 컴퓨터 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있다. RAM(1103)에는 또한 기기(1100)의 조작에 필요한 다양한 프로그램 및 데이터가 저장될 수 있다. 컴퓨팅 유닛(1101), ROM(1102) 및 RAM(1103)은 버스(1104)를 통새 서로 연결된다. 입/출력(I/O) 인터페이스(1105) 역시 버스(1104)에 연결된다.
기기(1100) 중의 키보드, 마우스 등과 같은 입력 유닛(1106); 각종 유형의 디스플레이, 스피커 등과 같은 출력 유닛(1107); 자기 디스크, 광 디스크 등과 같은 저장 유닛(1108); 및 네트워크 카드, 모뎀, 무선 통신 트랜시버 등과 같은 통신 유닛(1109) 등을 포함하는 다수의 부재는 I/O 인터페이스(1105)에 연결된다. 통신 유닛(1109)은 전자 기기(1100)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 통신 네트워크를 통해 다른 기기와 정보/데이터를 교환할 수 있도록 한다.
컴퓨팅 유닛(1101)은 프로세싱 및 컴퓨팅 능력을 갖춘 각종 범용 및/또는 전용 프로세싱 컴포넌트일 수 있다. 컴퓨팅 유닛(1101)의 일부 예시에는, 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 각종 전용 인공지능(AI) 컴퓨팅 칩, 머신 러닝 모델 알고리즘을 실행하는 다양한 컴퓨팅 유닛, 디지털 신호 프로세서(DSP) 및 임의의 적절한 프로세서, 컨트롤러, 마이크로컨트롤러 등을 포함하나 이에 한정되지 않는다. 컴퓨팅 유닛(1101)은 위에서 설명된 각 방법 및 처리, 예를 들면 텍스트 인식 방법을 수행한다. 예를 들면, 일부 실시예에서, 텍스트 인식 방법은 저장 유닛(1108)과 같은 기계 판독 가능 매체에 유형적으로 포함되는 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(1102) 및/또는 통신 유닛(1109)을 통해 기기(1100)에 로드 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(1103)에 로드되고 컴퓨팅 유닛(1101)에 의해 실행될 경우, 위에서 설명한 텍스트 인식 방법의 하나 이상의 단계가 수행될 수 있다. 대안적으로, 다른 실시예에서, 컴퓨팅 유닛(1101)은 다른 임의의 적절한 방식(예를 들어, 펌웨어를 통하여)을 통해 텍스트 인식 방법을 구현하도록 구성될 수 있다.
본문에서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 현장 프로그래머블 게이트 어레이(FPGA), 전용 집적 회로(ASIC), 전용 표준 제품(ASSP), 시스템 온 칩의 시스템(SOC), 복합 프로그램 가능 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신할 수 있으며, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치, 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.
본 발명의 방법을 구현하는 프로그램 코드는 하나 이상의 프로그래밍 언어의 임의의 조합으로 편집할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 다른 프로그램 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공될 수 있으며, 프로그램 코드는 프로세서 또는 제어기에 의해 실행될 경우, 흐름도 및/또는 블록도에 지정된 기능/작동이 구현되도록 할 수 있다. 프로그램 코드는 완전히 기계에서 실행되거나, 부분적으로 기계에서 실행되거나, 독립형 소프트웨어 패키지로서 기계에서 부분적으로 실행되며, 부분적으로 원격 기계에서 실행되거나 완전히 원격 기계 또는 서버에서 실행될 수 있다.
본 발명의 컨텍스트에서, 기계 판독 가능 매체는 명령 실행 시스템, 장치 또는 기기에 의해 또는 명령 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함하거나 저장할 수 있는 유형 매체일 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 기기, 또는 이들의 임의의 적절한 조합을 포함할 수 있지만 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 보다 구체적인 예는 하나 이상의 와이어에 기반한 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, CD-ROM, 광학 저장 기기, 자기 저장 기기 또는 이들의 임의의 적절한 조합을 포함한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기서 설명된 시스템 및 기술을 실시할 수 있고, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 지향 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 지향 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.
여기서 설명된 시스템 및 기술을 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 사용자 컴퓨터이고, 사용자는 상기 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예시로 근거리 통신망(LAN), 광역 통신망(WAN), 인터넷을 포함한다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있고 분산형 시스템의 서버일 수도 있거나, 또는 블록체인에 결합된 서버이다.
위에서 설명한 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에 기재된 각 단계는 동시에 수행될 수 있거나 순차적으로 수행될 수 있거나 상이한 순서로 수행될 수 있고, 본 발명에서 공개된 기술적 해결수단이 이루고자 하는 결과를 구현할 수만 있으면, 본문은 여기서 한정하지 않는다.
상기 구체적인 실시형태는 본 발명의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진해할 수 있음을 이해해야 한다. 본 발명의 정신 및 원칙 내에서 진행한 임의의 수정, 등가적 대체 및 개선 등은 모두 본 발명의 보호 범위 내에 속해야 한다.

Claims (21)

  1. 텍스트 인식 방법으로서,
    인식할 이미지의 다차원 제1 특징맵을 획득하는 단계;
    상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계; 및
    증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하는 단계를 포함하는 텍스트 인식 방법.
  2. 제1항에 있어서,
    상기 제1 특징맵은 3차원 특징맵이고;
    상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 상기 단계는,
    3개의 차원 중 제1 차원의 각 차원 값에 대해, 상기 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻는 단계;
    상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득하는 단계;
    상기 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는 단계; 및
    상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계를 포함하는 텍스트 인식 방법.
  3. 제2항에 있어서,
    상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 상기 단계는,
    제1 처리 대기 이미지에 대해 차원 변환을 수행하여, 제2 처리 대기 이미지 차원과 동일한 제3 처리 대기 이미지를 얻는 단계 - 상기 제1 처리 대기 이미지는 상기 제3 특징맵 또는 상기 제1 특징맵이고, 상기 제2 처리 대기 이미지는 상기 제3 특징맵 및 상기 제1 특징맵에서 상기 제1 처리 대기 이미지를 제외한 이미지임 - ; 및
    상기 제2 처리 대기 이미지와 제3 처리 대기 이미지 중 동일 위치의 특징 값을 덧셈 연산하여, 연산된 이미지를 얻고 증강 처리 후의 제1 특징맵으로 사용하는 단계를 포함하는 텍스트 인식 방법.
  4. 제3항에 있어서,
    상기 제1 처리 대기 이미지는 상기 제3 특징맵이고, 상기 제2 처리 대기 이미지는 상기 제1 특징맵이며;
    상기 제1 처리 대기 이미지에 대해 차원 변환을 수행하여, 제2 처리 대기 이미지 차원과 동일한 제3 처리 대기 이미지를 얻는 단계는,
    상기 제2 차원 및 제3 차원의 차원 값에 따라, 상기 제3 특징맵 중 상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 재구성하여, 상기 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 얻는 단계; 및
    상기 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 포함하는 3차원 이미지를 획득하여, 제3 처리 대기 이미지로 사용하는 단계를 포함하는 텍스트 인식 방법.
  5. 제2항에 있어서,
    상기 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻는 상기 단계는,
    상기 제2 특징맵 중 각 제1 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하는 단계 - 상기 제1 특징 데이터는 상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터임 - ; 및
    정규화 처리 후의 제2 특징맵 중 각 제2 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하는 단계 - 상기 제2 특징 데이터는 병합 차원의 각 차원 값에 대응되는 1차원 특징 데이터이고, 상기 병합 차원은 상기 제2 특징맵 중 상기 제2 차원 및 제3 차원에 대응되는 차원임 - ;를 포함하는 텍스트 인식 방법.
  6. 제2항 내지 제5항 중 어느 한 항에 있어서,
    상기 제1 차원은 깊이 차원이고, 상기 제2 차원은 폭 차원이며, 상기 제3 차원은 높이 차원인 텍스트 인식 방법.
  7. 제2항 내지 제5항 중 어느 한 항에 있어서,
    상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계 이전에,
    상기 제1 특징맵 및/또는 제3 특징맵에 대해 비선형 변환을 수행하는 단계를 더 포함하는 텍스트 인식 방법.
  8. 제1항 내지 제5항 중 어느 한 항에 있어서,
    인식할 이미지의 다차원 제1 특징맵을 획득하는 단계 이후에,
    상기 제1 특징맵에 대해 비선형 변환을 수행하는 단계를 더 포함하는 텍스트 인식 방법.
  9. 제1항에 있어서,
    상기 제1 특징맵은 3차원 특징맵이고;
    상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 상기 단계는,
    상기 제1 특징맵 중 각 제3 특징 데이터 사이의 유사도를 산출하는 단계 - 상기 제3 특징 데이터는 3개의 차원 중 제2 차원 및 제3 차원의 각 차원 값이 제1 차원에 대응되는 특징 값에 조합되는 것을 포함함 - ;
    산출하여 얻은 모든 유사도에 기반하여, 산출하여 얻은 각 유사도에 대해 정규화 처리를 수행하는 단계; 및
    정규화 처리 후의 유사도에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 단계를 포함하는 텍스트 인식 방법.
  10. 텍스트 인식 장치로서,
    인식할 이미지의 다차원 제1 특징맵을 획득하기 위한 특징 획득 모듈;
    상기 제1 특징맵 중의 각각의 특징 값에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하기 위한 특징 증강 모듈; 및
    증강 처리 후의 제1 특징맵에 기반하여, 상기 인식할 이미지에 대해 텍스트 인식을 수행하기 위한 텍스트 인식 모듈을 포함하는 텍스트 인식 장치.
  11. 제10항에 있어서,
    상기 제1 특징맵은 3차원 특징맵이고;
    상기 특징 증강 모듈은,
    3개의 차원 중 제1 차원의 각 차원 값에 대해, 상기 제1 특징맵 중 상기 차원 값 하에 제2 차원 및 제3 차원에 대응되는 특징 값을 재구성하여, 상기 차원 값에 대응되는 1차원 특징 데이터를 얻기 위한 특징 재구성 서브 모듈;
    상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 포함하는 2차원 제2 특징맵을 획득하기 위한 특징 획득 서브 모듈;
    상기 제2 특징맵 중 각 차원의 각 1차원 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하여, 제3 특징맵을 얻기 위한 정규화 처리 서브 모듈;
    상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하기 위한 특징 증강 서브 모듈을 포함하는 텍스트 인식 장치.
  12. 제11항에 있어서,
    상기 특징 증강 서브 모듈은,
    제1 처리 대기 이미지에 대해 차원 변환을 수행하여, 제2 처리 대기 이미지 차원과 동일한 제3 처리 대기 이미지를 얻기 위한 차원 변환 유닛 - 상기 제1 처리 대기 이미지는 상기 제3 특징맵 또는 상기 제1 특징맵이고, 상기 제2 처리 대기 이미지는 상기 제3 특징맵 및 상기 제1 특징맵에서 상기 제1 처리 대기 이미지를 제외한 이미지임 - ; 및
    상기 제2 처리 대기 이미지와 제3 처리 대기 이미지 중 동일 위치의 특징 값을 덧셈 연산하여, 연산된 이미지를 얻고 증강 처리 후의 제1 특징맵으로 사용하기 위한 특징 연산 유닛을 포함하는 텍스트 인식 장치.
  13. 제12항에 있어서,
    상기 제1 처리 대기 이미지는 상기 제3 특징맵이고, 상기 제2 처리 대기 이미지는 상기 제1 특징맵이며;
    상기 차원 변환 유닛은 구체적으로,
    상기 제2 차원 및 제3 차원의 차원 값에 따라, 상기 제3 특징맵 중 상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터를 재구성하여, 상기 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 얻고;
    상기 제1 차원의 각 차원 값에 대응되는 2차원 특징맵을 포함하는 3차원 이미지를 획득하여, 제3 처리 대기 이미지로 사용하는 텍스트 인식 장치.
  14. 제11항에 있어서,
    상기 정규화 처리 서브 모듈은 구체적으로,
    상기 제2 특징맵 중 각 제1 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하고, 상기 제1 특징 데이터는 상기 제1 차원의 각 차원 값에 대응되는 1차원 특징 데이터이며;
    정규화 처리 후의 제2 특징맵 중 각 제2 특징 데이터에 포함되는 특징 값에 대해 정규화 처리를 수행하고, 상기 제2 특징 데이터는 병합 차원의 각 차원 값에 대응되는 1차원 특징 데이터이며, 상기 병합 차원은 상기 제2 특징맵 중 상기 제2 차원 및 제3 차원에 대응되는 차원인 텍스트 인식 장치.
  15. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 제1 차원은 깊이 차원이고, 상기 제2 차원은 폭 차원이며, 상기 제3 차원은 높이 차원인 텍스트 인식 장치.
  16. 제11항 내지 제14항 중 어느 한 항에 있어서,
    상기 특징 증강 모듈은,
    상기 제3 특징맵에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하기 전에, 상기 제1 특징맵 및/또는 제3 특징맵에 대해 비선형 변환을 수행하기 위한 비선형 변환 서브 모듈을 더 포함하는 텍스트 인식 장치.
  17. 제10항 내지 제14항 중 어느 한 항에 있어서,
    인식할 이미지의 다차원 제1 특징맵을 획득한 후, 상기 제1 특징맵에 대해 비선형 변환을 수행하기 위한 비선형 변환 모듈을 더 포함하는 텍스트 인식 장치.
  18. 제10항에 있어서,
    상기 제1 특징맵은 3차원 특징맵이고;
    상기 특징 증강 모듈은 구체적으로,
    상기 제1 특징맵 중 각 제3 특징 데이터 사이의 유사도를 산출하고, 상기 제3 특징 데이터는 3개의 차원 중 제2 차원 및 제3 차원의 각 차원 값이 제1 차원에 대응되는 특징 값에 조합되는 것을 포함하며;
    산출하여 얻은 모든 유사도에 기반하여, 산출하여 얻은 각 유사도에 대해 정규화 처리를 수행하고;
    정규화 처리 후의 유사도에 기반하여, 상기 제1 특징맵 중의 각 특징 값에 대해 특징 증강 처리를 수행하는 텍스트 인식 장치.
  19. 전자 기기로서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하고;
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제9항 중 어느 한 항에 따른 텍스트 인식 방법을 수행할 수 있도록 하는 전자 기기.
  20. 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제9항 중 어느 한 항에 따른 텍스트 인식 방법을 수행하도록 하기 위한 것인 컴퓨터 명령이 저장된 비일시적 컴퓨터 판독 가능 저장 매체.
  21. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항 내지 제9항 중 어느 한 항에 따른 텍스트 인식 방법을 구현하는 컴퓨터 프로그램.
KR1020220147012A 2022-01-06 2022-11-07 텍스트 인식 방법, 장치, 전자 기기 및 저장 매체 KR20220155948A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210013631.1A CN114359905B (zh) 2022-01-06 2022-01-06 一种文本识别方法、装置、电子设备及存储介质
CN202210013631.1 2022-01-06

Publications (1)

Publication Number Publication Date
KR20220155948A true KR20220155948A (ko) 2022-11-24

Family

ID=81107773

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220147012A KR20220155948A (ko) 2022-01-06 2022-11-07 텍스트 인식 방법, 장치, 전자 기기 및 저장 매체

Country Status (4)

Country Link
US (1) US20230010031A1 (ko)
JP (1) JP7418517B2 (ko)
KR (1) KR20220155948A (ko)
CN (1) CN114359905B (ko)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN106599773B (zh) * 2016-10-31 2019-12-24 清华大学 用于智能驾驶的深度学习图像识别方法、系统及终端设备
CN111126410B (zh) * 2019-12-31 2022-11-18 讯飞智元信息科技有限公司 字符识别方法、装置、设备及可读存储介质
JP7479925B2 (ja) * 2020-05-14 2024-05-09 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム
CN111914843B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质
CN112801103B (zh) * 2021-01-19 2024-02-27 网易(杭州)网络有限公司 文本方向识别及文本方向识别模型训练方法、装置
CN113435210A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 社交图片文本识别方法、装置、计算机设备及存储介质
CN113591862A (zh) * 2021-07-09 2021-11-02 上海智臻智能网络科技股份有限公司 文本识别的方法及装置

Also Published As

Publication number Publication date
US20230010031A1 (en) 2023-01-12
JP7418517B2 (ja) 2024-01-19
CN114359905B (zh) 2023-05-26
CN114359905A (zh) 2022-04-15
JP2022172292A (ja) 2022-11-15

Similar Documents

Publication Publication Date Title
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
US20210049397A1 (en) Semantic segmentation method and apparatus for three-dimensional image, terminal, and storage medium
CN111815755B (zh) 虚拟物体被遮挡的区域确定方法、装置及终端设备
CN113204615B (zh) 实体抽取方法、装置、设备和存储介质
EP3933708A2 (en) Model training method, identification method, device, storage medium and program product
US20220292795A1 (en) Face image processing method, electronic device, and storage medium
EP4123594A2 (en) Object detection method and apparatus, computer-readable storage medium, and computer program product
CN112907439A (zh) 一种基于深度学习的仰卧位和俯卧位乳腺图像配准方法
CN112270332A (zh) 一种基于子流稀疏卷积的三维目标检测方法及系统
CN116309983B (zh) 虚拟人物模型的训练方法、生成方法、装置和电子设备
CN111091010A (zh) 相似度确定、网络训练、查找方法及装置和存储介质
CN114792355A (zh) 虚拟形象生成方法、装置、电子设备和存储介质
CN114549728A (zh) 图像处理模型的训练方法、图像处理方法、装置及介质
US20220318541A1 (en) Dynamic head for object detection
CN113344213A (zh) 知识蒸馏方法、装置、电子设备及计算机可读存储介质
US20230260211A1 (en) Three-Dimensional Point Cloud Generation Method, Apparatus and Electronic Device
CN117808659A (zh) 用于执行多维卷积运算方法、系统、设备和介质
KR20220155948A (ko) 텍스트 인식 방법, 장치, 전자 기기 및 저장 매체
EP4155670A1 (en) Intersection vertex height value acquisition method and apparatus, electronic device and storage medium
US20220351455A1 (en) Method of processing image, electronic device, and storage medium
CN111369425B (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN113781653A (zh) 对象模型生成方法、装置、电子设备及存储介质
CN113901247A (zh) 一种光学图像目标检测的方法及计算设备
CN113205131A (zh) 图像数据的处理方法、装置、路侧设备和云控平台
KR20230008672A (ko) 텍스트 인식 방법, 장치, 기기 및 저장 매체