KR20220011783A - 심볼 식별 방법 및 장치, 전자 기기 및 저장 매체 - Google Patents

심볼 식별 방법 및 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20220011783A
KR20220011783A KR1020227000935A KR20227000935A KR20220011783A KR 20220011783 A KR20220011783 A KR 20220011783A KR 1020227000935 A KR1020227000935 A KR 1020227000935A KR 20227000935 A KR20227000935 A KR 20227000935A KR 20220011783 A KR20220011783 A KR 20220011783A
Authority
KR
South Korea
Prior art keywords
encoding
feature
symbol
target image
image
Prior art date
Application number
KR1020227000935A
Other languages
English (en)
Inventor
시아오유 위에
장후이 쿠앙
첸하오 린
홍빈 순
웨이 장
Original Assignee
선전 센스타임 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 선전 센스타임 테크놀로지 컴퍼니 리미티드 filed Critical 선전 센스타임 테크놀로지 컴퍼니 리미티드
Publication of KR20220011783A publication Critical patent/KR20220011783A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18133Extraction of features or characteristics of the image regional/local feature not essentially salient, e.g. local binary pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • G06V30/1823Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

본 발명은 심볼 식별 방법 및 장치, 전자 기기 및 저장 매체에 관한 것으로서, 상기 방법은 식별될 타깃 이미지를 획득하는 단계; 결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계 - 상기 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것임 - ; 및 상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계를 포함한다. 본 발명의 실시예는 심볼 식별의 정확율을 향상시킬 수 있다.

Description

심볼 식별 방법 및 장치, 전자 기기 및 저장 매체
관련 출원의 상호 참조
본 발명은 출원 번호가 202010301340.3이고, 출원일이 2020년 4월 16일인 중국 특허 출원에 기반하여 제출하였고, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 발명에 인용된다.
본 발명은 전자 기술 분야에 관한 것으로서, 특히 심볼 식별 방법 및 장치, 전자 기기 및 저장 매체에 관한 것이다.
전자 기술의 발전에 따라, 갈수록 많은 작업이 전자 기기를 이용하여 완료될 수 있거나, 전자 기기의 보조를 통해 완료될 수 있으며, 이는 사람들에게 편리한 조건을 제공한다. 예를 들어, 컴퓨터를 이용하여 자동으로 심볼을 식별하여, 인공 처리의 효율을 향상시킬 수 있다.
현재, 심볼 식별은 규칙적인 심볼을 식별할 수 있고, 예를 들어, 문서에 대한 해석 등이다. 심볼 식별은, 또한 불규칙적인 심볼을 식별할 수 있고, 예를 들어, 교통 표지판, 상점 표지판 등 자연 시나리오에서 불규칙적인 심볼을 식별한다. 그러나, 시각 변화, 조도 변화 등 인소로 인해, 불규칙적인 심볼을 정확하게 식별하기 어렵다.
본 발명은 심볼 식별 기술 방안을 제기한다.
본 발명의 일 측면에 따르면, 심볼 식별 방법을 제공하고, 식별될 타깃 이미지를 획득하는 단계; 결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계 - 상기 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것임 - ; 및 상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계를 포함한다.
일 가능한 구현 방식에 있어서, 상기 결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계는, 상기 타깃 이미지의 제1 이미지 특징을 인코딩하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계; 상기 제1 이미지 특징의 인코딩 결과에 따라, 상기 타깃 이미지의 제2 이미지 특징을 결정하는 단계; 및 결정된 위치 벡터, 상기 제1 이미지 특징 및 상기 제2 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계를 포함한다. 여기서, 제2 이미지 특징이 더욱 강한 위치 특징을 가지고 있기 때문에, 얻은 타깃 이미지의 심볼 특징도 더욱 강한 위치 특징을 가지고 있음으로써, 심볼 특징으로 얻은 심볼 식별 결과로 하여금 더욱 정확해지도록 하고, 심볼 식별 결과가 받는 시맨틱의 영향을 감소시키도록 한다.
일 가능한 구현 방식에 있어서, 상기 타깃 이미지의 제1 이미지 특징을 인코딩하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계는, 순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 적어도 한 레벨의 제1 인코딩 처리를 수행하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계를 포함한다. 순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 한 레벨 또는 복수 개의 레벨의 제1 인코딩 처리를 수행하는 것을 통해, 제1 이미지 특징에 포함된 위치 특징을 증강할 수 있고, 얻은 제1 이미지 특징의 인코딩 결과는, 심볼 간의 더욱 명확한 위치 특징을 가질 수 있다.
일 가능한 구현 방식에 있어서, 상기 순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 적어도 한 레벨의 제1 인코딩 처리를 수행하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계는, 상기 적어도 한 레벨의 제1 인코딩 처리에서의 한 레벨의 제1 인코딩 처리에 대해, N 개의 제1 인코딩 노드를 이용하여 순차적으로 상기 제1 인코딩 노드의 입력 정보를 인코딩하여, N개의 제1 인코딩 노드의 출력 결과를 얻는 단계 - 1<i≤N인 경우, i 번째 제1 인코딩 노드의 입력 정보는 i-1 번째 제1 인코딩 노드의 출력 결과를 포함하고, N 및 i는 양의 정수임 - ; 및 상기 N개의 제1 인코딩 노드의 출력 결과에 따라, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계를 포함한다. 이로써, 첫 번째 제1 인코딩 노드의 입력 정보는 마지막 제1 인코딩 노드로 전달될 수 있음으로써, 제1 인코딩 노드의 입력 정보로 하여금 장기간 기억되게 하여, 얻은 입력 결과로 하여금 더욱 정확해지도록 할 수 있다
일 가능한 구현 방식에 있어서, 상기 제1 인코딩 노드의 입력 정보는, 상기 제1 이미지 특징의 제1 차원 특징 벡터 또는 이전 레벨의 제1 인코딩 처리의 출력 결과를 더 포함한다. 이로써, 한 레벨의 제1 인코딩 처리는 제1 인코딩 노드를 통해 제1 이미지 특징의 제1 차원 특징 벡터 또는 이전 레벨의 제1 인코딩 처리의 출력 결과를 마지막 제1 인코딩 노드로 전달하여, 한 레벨의 제1 인코딩 처리 출력 결과로 하여금 더욱 정확해지도록 할 수 있다.
일 가능한 구현 방식에 있어서, 상기 결정된 위치 벡터, 상기 제1 이미지 특징 및 상기 제2 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계는, 상기 위치 벡터 및 상기 제2 이미지 특징에 따라, 주의력 가중치를 결정하는 단계; 및 상기 주의력 가중치를 이용하여 상기 제1 이미지 특징을 특징 가중화하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계를 포함한다. 여기서, 주의력 가중치를 통해 추가로 제1 이미지 특징에서 관심이 필요한 특징을 증강함으로써, 주의력 가중치를 이용하여 제1 이미지 특징을 특징 가중화하여 얻은 심볼 특징은, 제1 이미지 특징에서 더욱 중요한 특징 부분을 더욱 정확하게 반영할 수 있다.
일 가능한 구현 방식에 있어서, 상기 방법은, 적어도 하나의 제1 기설정된 정보를 포함한 기설정된 정보 시퀀스를 획득하는 단계; 및 순차적으로 상기 적어도 하나의 제1 기설정된 정보에 대해 적어도 한 레벨의 제2 인코딩 처리를 수행하여, 상기 위치 벡터를 얻는 단계를 더 포함한다. 신경망을 이용하여 적어도 하나의 제1 기설정된 정보를 제2 인코딩 처리하는 과정에서, 순차적으로 적어도 하나의 제1 기설정된 정보를 인코딩하기 때문에, 생성된 위치 벡터는 적어도 하나의 제1 기설정된 정보의 순서와 연관됨으로써, 위치 벡터는 심볼 간의 위치 특징을 표시할 수 있다.
일 가능한 구현 방식에 있어서, 상기 순차적으로 상기 적어도 하나의 제1 기설정된 정보에 대해 적어도 한 레벨의 제2 인코딩 처리를 수행하여, 상기 위치 벡터를 얻는 단계는, 상기 적어도 한 레벨의 제2 인코딩 처리에서의 한 레벨의 제2 인코딩 처리에 대해, M개의 제2 인코딩 노드를 이용하여 순차적으로 상기 제2 인코딩 노드의 입력 정보를 인코딩하여, M 번째 제2 인코딩 노드의 출력 결과를 얻는 단계 - 1<j≤M인 경우, j 번째 제2 인코딩 노드의 입력 정보는 j-1 번째 제2 인코딩 노드의 출력 결과를 포함하고, M 및 j는 양의 정수임 - ; 및 상기 M 번째 제2 인코딩 노드의 출력 결과에 따라, 상기 위치 벡터를 얻는 단계를 포함한다. 이로써, 첫 번째 제2 인코딩 노드의 입력 정보가 마지막 제2 인코딩 노드로 전달될 수 있어, 제2 인코딩 노드의 입력 정보로 하여금 장기간 기억되게 하여, 얻은 위치 벡터로 하여금 더욱 정확해지도록 한다.
일 가능한 구현 방식에 있어서, 상기 제2 인코딩 노드의 입력 정보는 상기 제1 기설정된 정보 또는 이전 레벨의 제2 인코딩 처리의 출력 결과를 더 포함한다. 이로써, 한 레벨의 제2 인코딩 처리는 제2 인코딩 노드를 통해 제1 기설정된 정보 또는 이전 레벨의 제2 인코딩 처리의 출력 결과를 마지막 제1 인코딩 노드로 전달할 수 있어, 한 레벨의 제1 인코딩 처리 출력 결과로 하여금 더욱 정확해지도록 할 수 있다.
일 가능한 구현 방식에 있어서, 상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계는, 상기 타깃 이미지의 시맨틱 특징을 추출하는 단계; 및 상기 타깃 이미지의 시맨틱 특징과 상기 심볼 특징에 기반하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계를 포함한다. 이로써, 타깃 이미지의 문자 식별 결과를 얻는 과정에서, 시맨틱 특징 및 심볼 특징을 결합하여, 심볼 식별 결과의 정확성을 제공할 수 있다.
일 가능한 구현 방식에 있어서, 상기 상기 타깃 이미지의 시맨틱 특징을 추출하는 단계는, 획득된 제2 기설정된 정보에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징을 순차적으로 결정하는 단계를 포함하고, 상기 타깃 이미지의 시맨틱 특징과 상기 심볼 특징에 기반하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계는, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징 및 상기 심볼 특징에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 심볼 식별 결과를 얻는 단계를 포함한다. 여기서, 타깃 이미지에서의 심볼이 복수 개인 경우, 심볼 식별 결과는 심볼의 위치(심볼 특징) 및 시맨틱(시맨틱 특징)에 따라 순차적으로 얻을 수 있음으로써, 심볼 식별 결과의 정확성을 향상시킬 수 있다.
일 가능한 구현 방식에 있어서, 상기 획득된 제2 기설정된 정보에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징을 순차적으로 결정하는 단계는, 상기 제2 기설정된 정보에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 적어도 하나의 시간 단계에서 첫 번째 시간 단계의 시맨틱 특징을 얻는 단계; 및 상기 타깃 이미지가 k-1 번째 시간 단계에서의 심볼 식별 결과에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 타깃 이미지가 k 번째 시간 단계에서의 시맨틱 특징을 얻는 단계 - k는 1보다 큰 양의 정수임 - 를 포함한다. 이러한 방식을 통해, 상위 순서의 제3 인코딩 노드의 입력 정보를 하위 순서의 제3 인코딩 노드로 전달할 수 있음으로써, 제3 인코딩 노드의 입력 정보로 하여금 장기간 기억되게 하여, 얻은 시맨틱 특징으로 하여금 더욱 정확해지도록 할 수 있다.
본 발명의 일 측면에 따르면, 심볼 식별 장치를 제공하며, 상기 타겟 매칭 장치는,
식별될 타깃 이미지를 획득하도록 구성된 획득부;
결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻도록 구성된 결정부 - 상기 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것임 - ; 및
상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻도록 구성된 식별부를 포함한다.
일 가능한 구현 방식에 있어서, 상기 결정부는 또한, 상기 타깃 이미지의 제1 이미지 특징을 인코딩하여, 상기 제1 이미지 특징의 인코딩 결과를 얻고; 상기 제1 이미지 특징의 인코딩 결과에 따라, 상기 타깃 이미지의 제2 이미지 특징을 결정하며; 결정된 위치 벡터, 상기 제1 이미지 특징 및 상기 제2 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 결정부는 또한, 순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 적어도 한 레벨의 제1 인코딩 처리를 수행하여, 상기 제1 이미지 특징의 인코딩 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 결정부는 또한, 상기 적어도 한 레벨의 제1 인코딩 처리에서의 한 레벨의 제1 인코딩 처리에 대해, N개의 제1 인코딩 노드를 이용하여 순차적으로 상기 제1 인코딩 노드의 입력 정보를 인코딩하여, N개의 제1 인코딩 노드의 출력 결과를 얻고 - 1<i≤N인 경우, i 번째 제1 인코딩 노드의 입력 정보는 상기 i-1 번째 제1 인코딩 노드의 출력 결과를 포함하고, N 및 i는 양의 정수임 - ; 상기 N개의 제1 인코딩 노드의 출력 결과에 따라, 상기 제1 이미지 특징의 인코딩 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 제1 인코딩 노드의 입력 정보는, 상기 제1 이미지 특징의 제1 차원 특징 벡터 또는 이전 레벨의 제1 인코딩 처리의 출력 결과를 더 포함한다.
일 가능한 구현 방식에 있어서, 상기 결정부는 또한, 상기 위치 벡터 및 상기 제2 이미지 특징에 따라, 주의력 가중치를 결정하고; 상기 주의력 가중치를 이용하여 상기 제1 이미지 특징을 특징 가중화하여, 상기 타깃 이미지의 심볼 특징을 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 장치는, 적어도 하나의 제1 기설정된 정보를 포함한 기설정된 정보 시퀀스를 획득하고; 순차적으로 상기 적어도 하나의 기설정된 정보를 적어도 한 레벨의 제2 인코딩 처리를 수행하여, 상기 위치 벡터를 얻도록 구성된 인코딩부를 더 포함한다.
일 가능한 구현 방식에 있어서, 상기 인코딩부는 또한, 상기 적어도 한 레벨의 제2 인코딩 처리에서의 한 레벨의 제2 인코딩 처리에 대해, M개의 제2 인코딩 노드를 이용하여 순차적으로 상기 제2 인코딩 노드의 입력 정보를 인코딩하여, M 번째 제2 인코딩 노드의 출력 j-1 번째 제2 인코딩 노드의 출력 결과를 포함하고, M 및 j는 양의 정수임 - ; 상기 M 번째 제2 인코딩 노드의 출력 결과에 따라, 상기 위치 벡터를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 제2 인코딩 노드의 입력 정보는 상기 제1 기설정된 정보 또는 이전 레벨의 제2 인코딩 처리의 출력 결과를 더 포함한다.
일 가능한 구현 방식에 있어서, 상기 식별부는 또한, 상기 타깃 이미지의 시맨틱 특징을 추출하고; 상기 타깃 이미지의 시맨틱 특징과 상기 심볼 특징에 기반하여, 상기 타깃 이미지의 심볼 식별 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 식별부는 또한, 획득된 제2 기설정된 정보에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징을 순차적으로 결정하고; 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징 및 상기 심볼 특징에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 심볼 식별 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 식별부는 또한, 상기 제2 기설정된 정보에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 적어도 하나의 시간 단계에서 첫 번째 시간 단계의 시맨틱 특징을 얻고; 상기 타깃 이미지가 k-1 번째 시간 단계에서의 심볼 식별 결과에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 타깃 이미지가 k 번째 시간 단계에서의 시맨틱 특징을 얻도록 구성 - k는 1보다 큰 양의 정수임 - 된다.
본 발명의 일 측면에 따르면, 전자 기기를 제공하며,
프로세서; 및
프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
여기서, 상기 프로세서는, 상기 메모리에 저장된 명령어를 호출하여, 상기 심볼 식별 방법을 실행하도록 구성된다.
본 발명의 일 측면에 따르면, 컴퓨터 프로그램 명령어가 저장되어 있는 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 컴퓨터 프로그램 명령어는 프로세서에 의해 실행될 경우 상기 심볼 식별 방법을 구현한다.
본 발명의 일 측면에 따르면, 컴퓨터 프로그램을 제공하고, 컴퓨터 판독 가능 코드를 포함하며, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 경우, 상기 전자 기기의 프로세서가 실행될 경우 상기 심볼 식별 방법을 구현한다.
본 발명의 실시예에 있어서, 식별될 타깃 이미지를 획득한 다음, 결정된 위치 벡터 및 타깃 이미지의 제1 이미지 특징에 기반하여, 타깃 이미지의 심볼 특징을 얻고, 심볼 특징에 기반하여 타깃 이미지에서의 심볼을 식별하여, 타깃 이미지의 심볼 식별 결과를 얻을 수 있다. 여기서, 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것이고, 심볼 간의 위치 특징을 표시할 수 있음으로써, 심볼 식별 과정에서, 심볼 간의 위치 특징이 심볼 식별 결과에 대한 영향을 증가하여, 심볼 식별의 정확율을 향상시킬 수 있고, 예를 들어, 불규칙적인 심볼, 무 시맨틱 심볼에 대해, 모두 좋은 식별 효과를 얻을 수 있다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 발명을 한정하려는 것은 아니다.
아래에 첨부 도면에 따라 예시적 실시예를 상세하게 설명하므로, 본 발명의 다른 특징 및 측면이 더욱 명확해질 것이다.
본문의 도면은 본 명세서에 포함되어 본 명세서의 일부분을 구축하며, 이런 첨부 도면은 본 발명에 부합되는 실시예을 도시하고, 명세서와 함께 본 발명의 기술 방안의 설명에 사용된다.
도 1은 본 발명의 실시예에 따른 심볼 인식 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 타깃 이미지의 제2 이미지 특징을 결정하는 일 예의 블록도이다.
도 3은 본 발명의 실시예에 따른 신경망을 이용하여 심볼 식별 결과를 얻는 일 예의 블록도이다.
도 4는 본 발명의 실시예에 따른 심볼 식별 장치의 일 예의 블록도이다.
도 5는 본 발명의 실시예에 따른 심볼 식별 장치의 일 예의 블록도이다.
도 6은 본 발명의 실시예에 따른 전자 기기의 예의 블록도이다.
이하, 도면을 참조하여 본 발명의 다양한 예시적인 실시예, 특징 및 측면을 상세하게 설명한다. 도면에서 동일한 도면 부호는 동일하거나 유사한 기능을 갖는 요소를 표시한다. 실시예의 다양한 측면이 도면에 도시되어 있지만, 구체적으로 언급되지 않는 한, 도면은 반드시 비례대로 도시될 필요없다.
여기서 "예시적"이라는 특정한 단어는 "예, 실시예 또는 설명적인 것으로 사용됨"을 의미한다. 여기서 "예시적"으로 설명된 임의의 실시예는 다른 예보다 뛰어나거나 좋은 것으로 해석될 필요는 없다.
본 명세서에서 용어 “및/또는”은 다만 관련 대상의 상관 관계를 설명하기 위한 것일 뿐, 세 가지의 관계가 존재함을 나타내며, 예를 들어, A 및/또는 B는, A가 단독적으로 존재, A 및 B가 동시에 존재, B가 단독적으로 존재하는 세 가지 상황을 나타낸다. 또한, 본 명세서에서 "적어도 하나"라는 용어는 복수 개 중 어느 하나 또는 복수 개 중 적어도 2 개의 임의의 조합을 나타내며, 예를 들어, A, B 및 C 중 적어도 하나는 A, B 및 C에 의해 형성된 집합에서 선택된 임의의 하나 또는 복수 개의 요소를 나타낼 수 있다.
또한, 본 발명을 보다 잘 설명하기 위해, 아래의 구체적인 실시형태에서 많은 세부사항들이 제공된다. 본 분야의 기술자는 일부 구체적인 세부 사항이 없이도, 본 발명이 마찬가지로 실시될 수 있음을 이해해야 한다. 일부 예에 있어서, 본 분야에게 널리 알려진 방법, 수단, 구성 요소 및 회로는 본 발명의 요지를 강조하기 위해, 상세히 설명되지 않는다.
본 발명의 실시예가 제공한 심볼 식별 방안은, 식별될 타깃 이미지를 획득한 다음, 결정된 위치 벡터 및 타깃 이미지의 제1 이미지 특징에 기반하여, 타깃 이미지의 심볼 특징을 얻고, 심볼 특징에 기반하여 타깃 이미지에서의 심볼을 식별하여, 타깃 이미지의 심볼 식별 결과를 얻을 수 있다. 여기서, 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것이고, 심볼의 위치 특징을 표시하는데 사용될 수 있음으로써, 심볼 식별 과정에서, 심볼 간의 위치 특징을 증강하여, 얻은 식별 결과로 하여금 더욱 정확해지도록 한다.
관련 기술에 있어서, 일반적으로 심볼 간의 시맨틱 특징을 통해 심볼 시퀀스를 식별하고, 그러나 일부 심볼 시퀀스의 심볼 간은 시멘트에서 관련성이 비교적 적고, 예를 들어, 차량 번호, 방번호 등 심볼 시퀀스의 심볼 간은 시맨틱에서 관련성이 비교적 적음으로써, 시맨틱 특징을 통해 심볼 시퀀스를 식별하는 효과가 좋지 않다. 본 발명의 실시예에서 제공한 심볼 식별 방안은, 심볼의 위치 특징이 심볼 식별에 대한 영향을 증강시킬 수 있고, 심볼 식별 과정에서 시맨틱 특징에 대한 의존성을 감소시킬 수 있으며, 시맨틱 관련성이 비교적 적은 심볼에 대한 식별 또는 불규척적인 심볼에 대한 식별에 비교적 좋은 식별 효과를 가질 수 있다.
본 발명 실시예가 제공한 기술 방안은 이미지에서 심볼의 식별, 이미지-텍스트 전환 등 응용 시나리오의 확장에 적용될 수 있고, 본 발명의 실시예에서는 이에 대해 한정하지 않는다. 예를 들어, 교통 표지판 중 불규칙적인 심볼에 대해 심볼 식별을 하여, 교통 표시판이 표시하는 교통 지시를 결정하여, 사용자들에게 편의를 제공한다.
도 1은 본 발명의 실시예에 따른 심볼 인식 방법의 흐름도이다. 상기 심볼 식별 방법은 단말 기기, 서버 또는 다른 타입의 전자 기기에 의해 실행될 수 있고, 여기서, 단말 기기는 사용자 기기(User Equipment, UE), 모바일 기기, 사용자 단말, 단말, 셀룰러 폰, 무선 전화, 개인용 정보 단말기(Personal Digital Assistant, PDA), 핸드 헬드 기기, 컴퓨팅 기기, 차량용 기기, 웨어러블 기기 등일 수 있다. 일부 가능한 구현 방식에 있어서, 상기 심볼 식별 방법은 프로세서가 메모리에 저장된 컴퓨터 판독 가능한 명령어를 호출하는 방식을 통해 구현될 수 있다. 아래에 전자 기기를 실행 주체로 하여 본 발명의 실시예에 따른 심볼 식별 방법을 설명한다.
단계 S11에 있어서, 식별될 타깃 이미지를 획득한다.
본 발명의 실시예에 있어서, 전자 기기는 이미지 수집 기능을 가질 수 있고, 식별될 타깃 이미지를 수집할 수 있다. 또는, 전자 기기는 다른 기기로부터 식별될 타깃 이미지를 획득할 수 있고, 예를 들어, 전자 기기는 카메라 기기, 모니터링 기기 등 기기로부터 식별될 타깃 이미지를 획득할 수 있다. 식별될 타깃 이미지는 심볼 식별을 대기하는 이미지일 수 있다. 타깃 이미지에는 심볼이 캐리될 수 있고, 심볼은 단일 심볼일 수 있고, 문자열일 수도 있다. 타깃 이미지 중의 심볼은 규칙적인 심볼일 수 있고, 예를 들어, 표준 글자체로 쓴 텍스트는 규칙적인 심볼일 수 있다. 규칙적인 심볼은 정렬한 배열, 균일한 크기, 형태 변화 없음, 차폐 없음 등 특징을 가질 수 있다. 일부 구현 방식에 있어서, 타깃 이미지 중의 심볼은 불규칙적인 심볼일 수도 있고, 예를 들어, 상점 표지판, 광고 표지의 일부 예술적 효과를 가진 텍스트일 수 있다. 불규칙적인 심볼은 정렬되지 못한 배열, 균일하지 않은 크기, 변화되는 형태, 차폐 존재 등 특징을 가질 수 있다.
단계 S12에 있어서, 결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻고; 여기서, 상기 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것이다.
본 발명의 실시예에 있어서, 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여, 심볼의 위치 특징을 표시하는데 사용되는 위치 벡터를 결정할 수 있고, 예를 들어, 일정한 길이의 기설정된 정보 시퀀스를 획득한 다음, 기설정된 정보 시퀀스에서 심볼의 위치 특징을 추출한다. 위치 벡터와 심볼이 위치한 위치는 연관되고, 예를 들어, 식별될 심볼이 심볼 시퀀스에서의 위치가 세 번째 심볼 위치이면, 위치 벡터는 식별될 심볼이 상기 심볼 시퀀스에서의 상대적인 위치를 표시할 수 있고, 즉, 세 번째 심볼 위치를 표시할 수 있다. 위치 벡터와 심볼 시맨틱의 연관성을 감소시키기 위해, 기설정된 정보 시퀀스에서의 심볼은 동일할 수 있다. 일부 구현 방식에 있어서, 기설정된 정보 시퀀스에서의 각 심볼은 시맨틱이 존재하지 않는 정보로 설정될 수 있음으로써, 위치 벡터와 심볼 시맨틱의 연관성을 추가로 감소시킨다. 위치 벡터와 심볼의 시맨틱 연관성은 비교적 적음으로써, 상이한 타깃 이미지의 경우, 위치 벡터가 동일할 수 있고, 상이할 수도 있다.
타깃 이미지의 제1 이미지 특징은 타깃 이미지를 이미지 추출하여 얻은 것일 수 있고, 예를 들어, 신경망을 이용하여 타깃 이미지에 적어도 하나의 컨볼루션 연산을 진행하여, 타깃 이미지의 제1 이미지 특징을 얻을 수 있다. 결정된 위치 벡터 및 타깃 이미지의 제1 이미지 특징에 따라, 타깃 이미지의 심볼 특징을 결정할 수 있고, 예를 들어, 결정된 위치 벡터 및 타깃 이미지의 제1 이미지 특징을 융합하여, 타깃 이미지의 심볼 특징을 얻는다. 여기서, 심볼 특징은 위치 벡터 및 제1 이미지 특징에 기반하여 얻은 것이기 때문에, 심볼 특징은 심볼의 시맨틱 영향을 적게 받는다.
단계 S13에 있어서, 상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는다.
본 발명의 실시예에 있어서, 신경망을 이용하여 심볼 특징을 처리 할 수 있고, 예를 들어, 심볼 특징에 대해 활성화 작업을 진행하거나, 심볼 특징 출력 신경망의 완전 연결 계층에 대해 완전 연결 작업 등을 진행하여, 타깃 이미지의 심볼 식별 결과를 얻을 수 있다. 심볼 식별 결과는 타깃 이미지 중 심볼에 대한 식별 결과일 수 있다. 타깃 이미지에 하나의 심볼이 포함되는 경우, 심볼 식별 결과는 하나의 심볼일 수 있다. 타깃 이미지에 심볼 시퀀스가 포함되는 경우, 심볼 식별 결과는 하나의 심볼 시퀀스일 수 있고, 심볼 식별 결과 중 각 심볼의 순서와 타깃 이미지 중 상응되는 심볼의 순서는 동일하다.
심볼 특징을 통해 얻은 심볼 식별 결과는, 심볼의 시맨틱 영향을 비교적 적게 받음으로써, 일부 심볼 간 시맨틱에서 연관성이 비교적 적은 심볼 시퀀스도 비교적 좋은 식별 효과를 가질 수 있고, 예를 들어, 차 번호판 중 시맨틱에서 연관성이 없는 심볼 시퀀스를 심볼 식별할 수 있다.
상기 단계 S12에 있어서, 결정된 위치 벡터 및 타깃 이미지의 제1 이미지 특징에 기반하여, 타깃 이미지의 심볼 특징을 얻음으로써, 시맨틱이 심볼 특징에 대한 영향을 감소시킨다. 아래는 타깃 이미지의 심볼 특징을 얻는 구현 방식을 제공한다.
일 가능한 구현 방식에 있어서, 타깃 이미지의 제1 이미지 특징을 인코딩하여, 상기 제1 이미지 특징의 인코딩 결과를 얻은 다음, 제1 이미지 특징의 인코딩 결과에 따라, 타깃 이미지의 제2 이미지 특징을 결정한 다음, 기설정된 위치 벡터, 제1 이미지 특징 및 제2 이미지 특징에 기반하여, 타깃 이미지의 심볼 특징을 얻을 수 있다.
상기 구현 방식에 있어서, 신경망을 이용하여 타깃 이미지의 제1 이미지 특징을 인코딩할 수 있고, 예를 들어, 제1 이미지 특징을 행 단위 또는 열 단위로 인코딩함으로써, 제1 이미지 특징에 포함된 위치 특징을 증강할 수 있다. 다음 제1 이미지 특징을 인코딩하여 얻은 인코딩 결과에 따라, 타깃 이미지의 제2 이미지 특징을 얻을 수 있고, 예를 들어, 제1 이미지 특징 및 인코딩 결과를 융합하여, 타깃 이미지의 제2 이미지 특징을 얻고, 제2 이미지 특징은 제1 이미지 특징에 비해, 더욱 강한 위치 특징을 가진다. 다음 결정된 위치 벡터, 제1 이미지 특징 및 제2 이미지 특징에 기반하여 타깃 이미지의 심볼 특징을 얻을 수 있고, 예를 들어 결정된 위치 벡터, 제1 이미지 특징 및 제2 이미지 특징을 융합하여 타깃 이미지의 심볼 특징을 얻고, 제2 이미지 특징은 더욱 강한 위치 특징을 가지기 때문에, 얻은 타깃 이미지의 심볼 특징도 더욱 강한 위치 특징을 가짐으로써, 심볼 특징으로 얻은 심볼 식별 결과로 하여금 더욱 정확해지도록 하고, 심볼 식별 결과가 받는 시맨틱의 영향을 감소시키도록 한다.
상기 구현 방식에 있어서, 타깃 이미지의 제1 이미지 특징을 인코딩 하는 것을 통해, 제1 이미지 특징에 포함된 위치 특징으로 하여금 증강되도록 하고, 아래는 일 예를 통해 제1 이미지 특징의 인코딩 결과를 얻는 과정을 설명한다.
일 예에 있어서, 순차적으로 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 적어도 한 레벨의 제1 인코딩 처리를 수행하여, 제1 이미지 특징의 인코딩 결과를 얻을 수 있다.
상기 예에 있어서, 제1 이미지 특징은 복수 개의 제1 차원 특징 벡터를 포함할 수 있다. 제1 이미지 특징은 복수 개의 차원의 특징을 포함할 수 있고, 예를 들어, 제1 이미지 특징은 길이, 너비, 깊이 등 복수 개의 차원을 포함할 수 있다. 상이한 차원에서 특징 차원수는 상이할 수 있다. 제1 차원 특징 벡터는 제1 이미지 특징이 하나의 차원에서의 특징일 수 있고, 예를 들어, 제1 차원 특징 벡터는 길이 차원 또는 너비 차원에서의 특징일 수 있다. 제1 인코딩 처리는 제1 이미지 특징을 인코딩한 것일 수 있고, 상응하게, 신경망은 적어도 하나의 제1 인코딩 계층을 포함할 수 있고, 제1 인코딩 계층에 대응되는 인코딩 처리는 제1 인코딩 처리일 수 있다. 여기서, 신경망을 이용하여 순차적으로 복수 개의 제1 차원 특징 벡터에 대해 한 레벨 또는 복수 레벨의 제1 인코딩 처리를 수행하여, 복수 개의 제1 차원 특징 벡터의 처리 결과를 얻을 수 있고, 한 개 제1 차원 특징 벡터는 한 개 처리 결과에 대응될 수 있고, 다음 복수 개의 제1 차원 특징의 복수 개의 처리 결과를 결합하여, 제1 이미지 특징의 인코딩 결과를 형성할 수 있다. 순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 한 레벨의 또는 복수 개의 레벨의 제1 인코딩 처리를 수행하는 것을 통해, 제1 이미지 특징에 포함된 위치 특징을 증강할 수 있고, 얻은 제1 이미지 특징의 인코딩 결과는, 심볼 간의 더욱 명확한 위치 특징을 가질 수 있다.
본 예에 있어서, 적어도 한 레벨의 제1 인코딩 처리에서의 한 레벨의 제1 인코딩 처리는, N 개의 제1 인코딩 노드를 이용하여 순차적으로 제1 인코딩 노드의 입력 정보를 인코딩하여, N 개의 제1 인코딩 노드의 출력 결과를 얻을 수 있고; 여기서, 1<i≤N인 경우, i 번째 제1 인코딩 노드의 입력 정보는 i-1 번째 제1 인코딩 노드의 출력 결과를 포함하고, N 및 i는 양의 정수이다. N 개의 제1 인코딩 노드의 출력 결과에 따라, 제1 이미지 특징의 인코딩 결과를 얻는다.
본 예에 있어서, 신경망을 이용하여 제1 이미지 특징에 적어도 한 레벨의 제1 인코딩 처리를 처리하여, 제1 이미지 특징의 인코딩 결과를 얻을 수 있다. 신경망은 적어도 한 레벨의 제1 인코딩 계층을 포함할 수 있고, 제1 인코딩 계층은 제1 인코딩 처리를 실행할 수 있고, 각 레벨의 제1 인코딩 처리는 복수 개의 인코딩 노드를 통해 구현된다. 제1 인코딩 처리가 복수 레벨인 경우, 각 레벨 제1 인코딩 처리 실행 조작은 동일할 수 있다. 적어도 한 레벨의 제1 인코딩 처리에서의 한 레벨의 제1 인코딩 처리는, N 개의 제1 인코딩 노드를 이용하여 순차적으로 상기 제1 인코딩 처리의 입력 정보를 인코딩할 수 있고, 하나의 제1 인코딩 노드는 하나의 입력 정보에 대응되고, 상이한 제1 인코딩 노드의 입력 정보는 상이할 수 있다. 상응하게, 하나의 제1 인코딩 노드는 하나의 출력 결과를 얻을 수 있다. 제1 레벨 제1 인코딩 처리에서 제1 인코딩 노드의 입력 정보는 제1 이미지 특징의 제1 차원 특징 벡터일 수 있다. 제1 레벨 제1 인코딩 처리에서 제1 인코딩 노드의 출력 결과는 제2 레벨 제1 인코딩 처리에서 순서가 동일한 제1 인코딩 노드의 입력 정보일 수 있고, 이러한 방식으로, 마지막 레벨 제1 인코딩 처리까지 적용될 수 있다. 마지막 레벨 제1 인코딩 처리에서 제1 인코딩 노드의 출력 결과는 상기 제1 차원 특징 벡터의 처리 결과일 수 있다. 한 레벨의 제1 인코딩 처리는 N 개의 제1 인코딩 노드를 포함할 수 있고, 1<i≤N인 경우, 즉, 제1 인코딩 노드가 현재 레벨의 제1 인코딩 처리에서 첫 번째 제1 인코딩 노드 이외의 다른 제1 인코딩 노드인 경우, 제1 인코딩 노드의 입력 정보는 상기 레벨의 제1 인코딩 처리에서 이전 레벨의 제1 인코딩 노드의 출력 결과를 더 포함할 수 있고, 첫 번째 제1 인코딩 노드의 출력 정보는 마지막 제1 인코딩 노드로 전달될 수 있음으로써, 제1 인코딩 노드의 입력 정보로 하여금 장기간 기억되게 하여, 얻은 출력 결과로 하여금 더욱 정확해지도록 할 수 있다.
도 2는 본 발명의 실시예에 따른 타깃 이미지의 제2 이미지 특징을 결정하는 일 예의 블록도이다. 본 예에 있어서, 신경망(예를 들어 장단기 기억 네트워크(Long Short-Term Memory, LSTM))을 이용하여 타깃 이미지의 제1 이미지 특징 F를 인코딩 할 수 있다. 신경망은 두 개 계층의 제1 인코딩 계층을 포함할 수 있고, 각 계층 제1 인코딩 계층은 복수 개의 제1 인코딩 노드(도 2에서의 인코딩 노드에 대응됨)를 포함할 수 있다. 여기서, 타깃 이미지의 제1 이미지 특징 F를 신경망의 제1 인코딩 계층에 입력할 수 있고, 제1 인코딩 계층의 복수 개의 제1 인코딩 노드를 각각 이용하여 제1 이미지 특징 F의 복수 개의 제1 차원 특징 벡터(너비 차원 특징 벡터)를 인코딩하여, 각 제1 인코딩 노드의 출력 결과를 얻는다. 여기서, 첫 번째 제1 인코딩 노드의 입력 정보는 첫 번째 제1 차원 특징 벡터이고, 두 번째 제1 인코딩 노드의 입력 정보는 첫 번째 제1 인코딩 노드의 출력 결과 및 두 번째 제1 차원 특징 벡터이고, 이러한 방식으로, 마지막 제1 인코딩 노드의 출력 결과를 얻을 수 있다. 복수 개의 제1 인코딩 포인트의 출력 결과를 제2 계층의 제1 인코딩 계층에 입력하고, 제2 계층의 제1 인코딩 계층의 처리 과정은 제1 계층의 제1 인코딩 계층의 처리 과정과 비슷하기에, 여기서 더 이상 설명하지 않는다. 최종적으로 제1 이미지 특징의 인코딩 결과 F2를 얻을 수 있다. 다음 제1 이미지 특징 F 및 제1 이미지 특징의 인코딩 결과 F2를 융합할 수 있고, 여기서 특징을 더하거나 결합하여, 타깃 이미지의 제2 이미지 특징을 얻는다.
여기서, 두 개 계층 LSTM이 타깃 이미지의 제1 이미지 특징 F를 인코딩하는 것을 예로 들면, 아래 공식을 통해 제1 이미지 특징 F로 제2 이미지 특징
Figure pct00001
을 얻을 수 있다.
Figure pct00002
공식(1);
Figure pct00003
공식(2);
Figure pct00004
공식(3);
여기서,
Figure pct00005
는 제1 이미지 특징 F이 (i, j)위치에서의 특징 벡터(제1 차원 특징 벡터)일 수 있고;
Figure pct00006
는 제1 계층의 제1 인코딩 계층의 출력 결과
Figure pct00007
가(i, j)위치에서의 특징 벡터를 표시할 수 있고;
Figure pct00008
는 출력 결과
Figure pct00009
가 (i, j-1)위치에서의 특징 벡터를 표시할 수 있고;
Figure pct00010
는 인코딩 결과
Figure pct00011
가 (i, j)위치에서의 특징 벡터를 표시할 수 있고;
Figure pct00012
는 인코딩 결과
Figure pct00013
가(i, j-1)위치에서의 특징 벡터를 표시할 수 있으며;
Figure pct00014
는 얻은 제2 이미지 특징을 표시할 수 있으며;
Figure pct00015
는 벡터의 합산 연산을 표시할 수 있다. 여기서, i 및 j는 모두 자연수이다.
상기 구현 방식에 있어서, 결정된 위치 벡터, 제1 이미지 특징 및 제2 이미지 특징에 기반하여, 타깃 이미지의 심볼 특징을 얻을 수 있고, 아래는 타깃 이미지의 심볼 특징을 얻는 과정을 예로 들어 설명한다.
일 예에 있어서, 결정된 위치 벡터 및 제2 이미지 특징에 따라, 주의력 가중치를 결정할 수 있고, 다음 주의력 가중치를 이용하여 제1 이미지 특징을 특징 가중화하여, 타깃 이미지의 심볼 특징을 얻을 수 있다.
일 예에 있어서, 위치 벡터 및 제2 이미지 특징은 확실한 위치 특징을 포함하기 때문에, 위치 벡터 및 제2 이미지 특징에 따라 주의력 가중치를 결정할 수 있고, 예를 들어, 위치 벡터와 제2 이미지 특징의 연관성을 결정하고, 상기 연관성에 따라 주의력 가중치를 결정한다. 위치 벡터와 제2 이미지 특징의 연관성은 위치 벡터와 제2 이미지 특징의 포인트를 곱하여 얻은 것이다. 결정된 주의력 가중치를 이용하여, 제1 이미지 특징을 특징 가중화할 수 있고, 예를 들어, 주의력 가중치와 제1 이미지 특징을 곱하여 합을 얻어, 타깃 이미지의 심볼 특징을 얻을 수 있다. 주의력 가중치를 통해 추가로 제1 이미지 특징에서 관심이 필요한 특징을 증강함으로써, 주의력 가중치를 이용하여 제1 이미지 특징을 특징 가중화하여 얻은 심볼 특징은, 제1 이미지 특징에서 더욱 중요한 특징 부분을 더욱 정확하게 반영할 수 있다.
본 예에 있어서, 주의력 가중치는 아래 공식(4)를 통해 결정될 수 있다.
Figure pct00016
공식(4);
여기서,
Figure pct00017
는 주의력 가중치를 표시하고;
Figure pct00018
는 활성화 함수를 표시하고;
Figure pct00019
는 위치 벡터
Figure pct00020
의 전치를 표시하며;
Figure pct00021
는 제2 이미지 특징
Figure pct00022
이 특징 위치 (i, j)에서의 특징 벡터를 표시한다. 상기 공식(4)를 이용하여, 위치 벡터 및 제2 이미지 특징에 의해 주의력 가중치가 결정될 수 있다.
본 예에 있어서, 심볼 특징은 아래 공식(5)를 통해 결정할 수 있다.
Figure pct00023
공식(5);
여기서,
Figure pct00024
는 심볼 특징을 표시하고;
Figure pct00025
는 주의력 가중치를 표시하며
Figure pct00026
는 제1 이미지 특징
Figure pct00027
이 특징 위치(i, j)에서의 특징 벡터를 표시한다. 상기 공식(5)를 이용하여, 주의력 가중치 및 제1 이미지 특징에 의해 심볼 특징이 얻어질 수 있다.
상기 구현 방식에 있어서, 결정된 위치 벡터 및 제2 이미지 특징에 따라, 주의력 가중치를 결정할 수 있다. 위치 벡터는 심볼의 위치 특징을 표시할 수 있고, 즉, 심볼 간의 상대 위치를 표시할 수 있다. 아래는 일 구현 방식을 통해 위치 벡터를 결정하는 과정을 설명한다.
일 가능한 구현 방식에 있어서, 적어도 하나의 제1 기설정된 정보를 포함한 기설정된 정보 시퀀스를 획득할 수 있고, 다음 순차적으로 상기 적어도 하나의 기설정된 정보에 대해 적어도 한 레벨의 제2 인코딩 처리를 수행하여, 위치 벡터를 얻을 수 있다.
본 구현 방식에 있어서, 기설정된 정보 시퀀스는 하나 또는 복수 개의 제1 기설정된 정보를 포함할 수 있다. 제1 기설정된 정보는 실제 시나리오에 따라 설정된 정보일 수 있고, 특별한 의미를 가지지 않을 수 있다. 예를 들어, 제1 기설정된 정보는 카운팅 명령어일 수 있다. 신경망을 이용하여 순차적으로 적어도 하나의 제1 기설정된 정보에 대해 한 레벨 또는 복수 레벨 제2 인코딩 처리를 수행하여, 위치 벡터를 얻는다. 적어도 하나의 제1 기설정된 정보는 동일하기 때문에, 특정된 의미가 없음으로써, 적어도 하나의 제1 기설정된 정보 간의 시맨틱 연관성이 비교적 적음으로써, 순차적으로 적어도 하나의 제1 기설정된 정보에 대해 한 레벨 또는 복수 레벨 제2 인코딩 처리를 수행하여 얻은 위치 벡터와 시맨틱의 연관 정도도 비교적 낮다. 동시에, 신경망을 이용하여 적어도 하나의 제1 기설정된 정보를 제2 인코딩 처리하는 과정에서, 순차적으로 적어도 하나의 제1 기설정된 정보를 인코딩하기 때문에, 생성된 위치 벡터는 적어도 하나의 제1 기설정된 정보의 두 번째 순서와 연관되고, 즉, 이해해야 할 것은, 적어도 하나의 제1 기설정된 정보 간의 위치와 연관됨으로써, 위치 벡터는 심볼 간의 위치 특징을 표시할 수 있다.
본 구현 방식의 일 예에 있어서, 적어도 한 레벨의 제2 인코딩 처리에서의 한 레벨의 제2 인코딩 처리는, M 개의 제2 인코딩 노드를 이용하여 순차적으로 제2 인코딩 노드의 입력 정보를 인코딩하여, M 번째 제2 인코딩 노드의 출력 결과를 얻는다. 1<j≤M인 경우, j 번째 제2 인코딩 노드의 입력 정보는 j-1 번째 제2 인코딩 노드의 출력 결과를 포함하고, M 및 j는 양의 정수이다. M 번째 제2 인코딩 노드의 출력 결과에 따라, 위치 벡터를 얻는다.
본 예에 있어서, 신경망을 이용하여 순차적으로 적어도 하나의 제1 기설정된 정보에 대해 한 레벨 또는 복수 레벨 제2 인코딩 처리를 수행하여, 위치 벡터를 얻는다. 제2 인코딩 처리가 복수 레벨인 경우, 각 레벨 제2 인코딩 처리 실행 조작은 동일할 수 있다. 적어도 한 레벨의 제2 인코딩 처리에서의 한 레벨의 제2 인코딩 처리는, M 개의 제2 인코딩 노드를 이용하여 순차적으로 상기 제2 인코딩 처리의 입력 정보를 인코딩할 수 있고, 하나의 제2 인코딩 노드는 하나의 입력 정보에 대응되고, 상이한 제2 인코딩 노드의 입력 정보는 상이할 수 있다. 상응하게, 하나의 제2 인코딩 노드는 하나의 출력 결과를 얻을 수 있다. 제1 레벨 제2 인코딩 처리에서 하나의 제2 인코딩 노드의 입력 정보는 하나의 제1 기설정된 정보일 수 있다. 제1 레벨 제2 인코딩 처리에서 제1 인코딩 노드의 출력 결과는 제2 레벨 제2 인코딩 처리에서 순서가 동일한 제2 인코딩 노드의 입력 정보일 수 있고, 이러한 방식으로, 마지막 레벨 제2 인코딩 처리까지 적용될 수 있다. 마지막 레벨 제2 인코딩 처리에서 마지막 제2 인코딩 노드의 출력 결과를 위치 벡터로 사용하거나, 마지막 레벨 제2 인코딩 처리에서 마지막 제2 인코딩 노드의 출력 결과를 콘볼루션, 풀링 등으로 추가로 처리하여, 위치 벡터를 얻을 수 있다. 한 레벨의 제2 인코딩 처리는 M 개의 제2 인코딩 노드를 포함할 수 있고, 1<j≤M인 경우, 즉, 제2 인코딩 노드가 현재 레벨의 제2 인코딩 처리에서 첫 번째 제2 인코딩 노드 이외의 다른 제2 인코딩 노드인 경우, 제2 인코딩 노드의 입력 정보는 상기 레벨의 제2 인코딩 처리에서 이전 레벨의 제1 인코딩 노드의 출력 결과를 더 포함할 수 있고, 첫 번째 제2 인코딩 노드의 출력 정보는 마지막 제2 인코딩 노드로 전달될 수 있어, 제2 인코딩 노드의 입력 정보로 하여금 장기간 기억되게 하여, 얻은 위치 벡터로 하여금 더욱 정확해지도록 할 수 있다
여기서, 제1 기설정된 정보를 상수“<next>”, 제2 인코딩 처리가 2 레벨 LSTM인 상황을 예로 들고, 아래 공식(6) 및 공식(7)을 이용하여 위치 벡터
Figure pct00028
를 결정할 수 있다.
Figure pct00029
공식(6);
Figure pct00030
공식(7);
여기서,
Figure pct00031
는 제1 레벨 제2 인코딩 처리에서의 t 번째 제2 인코딩 노드의 출력 결과를 표시할 수 있고;
Figure pct00032
는 제1 레벨 제2 인코딩 처리에서의 t-1 번째 제2 인코딩 노드의 출력 결과를 표시할 수 있으며;
Figure pct00033
는 제2 레벨 제2 인코딩 처리에서의 t 번째 제2 인코딩 노드의 출력 결과를 표시할 수 있고, 즉, 위치 벡터를 표시할 수 있고;
Figure pct00034
은 제2 레벨 제2 인코딩 처리에서의 t-1번째 제2 인코딩 노드의 출력 결과를 표시할 수 있다. 여기서, t는 자연수이다.
설명해야 할 것은, 적어도 하나의 제1 기설정된 정보로 위치 벡터를 얻는 과정은 도 2에 도시된 신경망을 사용하여 구현될 수 있고, 여기서, 위치 벡터는 제2 레벨 제2 인코딩 처리에서 마지막 제2 인코딩 노드의 출력 결과일 수 있고, 복수 개의 제2 인코딩 노드의 출력 결과로 공동 형성된 것이 아니다.
상기 단계 S13에 있어서, 심볼 특징에 기반하여 타깃 이미지에서의 심볼을 식별하여, 타깃 이미지의 심볼 식별 결과를 얻을 수 있다. 심볼 식별 결과의 정확성을 향상시키기 위해, 타깃 이미지에서의 심볼 식별을 수행하는 과정에서, 타깃 이미지에서 심볼의 시맨틱 특징을 고려할 수도 있다. 아래는 구현 방식을 통해 타깃 이미지의 심볼 식별 결과를 얻는 과정을 설명한다.
일 가능한 구현 방식에 있어서, 타깃 이미지의 시맨틱 특징을 추출한 다음, 타깃 이미지의 시맨틱 특징 및 심볼 특징에 기반하여, 타깃 이미지의 심볼 식별 결과를 얻을 수 있다.
본 구현 방식에 있어서, 타깃 이미지의 시맨틱 특징을 추출할 수 있고, 예를 들어, 일부 시나리오의 시맨틱 추출 모델을 이용하여 타깃 이미지의 시맨틱 특징을 추출한 다음, 타깃 이미지의 시맨틱 특징 및 심볼 특징을 융합하여, 융합 결과를 얻고, 예를 들어, 시맨틱 특징 및 심볼 특징을 스플라이싱 하거나, 시맨틱 특징 및 심볼 특징을 스플라이싱한 다음, 특징 가중화하여, 융합 결과를 얻는다. 여기서, 특징 가중화된 가중치는 기설정될 수 있고, 시맨틱 특징 및 심볼 특징에 따라 계산하여 얻은 것일 수도 있다. 다음 상기 융합 결과에 따라 타깃 이미지의 심볼 식별 결과를 얻을 수 있고, 예를 들어, 융합 결과에 대해 적어도 한 회의 콘볼루션 작업, 완전 연결 작업을 수행하여, 타깃 이미지의 문자 식별 결과를 얻을 수 있다. 이로써, 타깃 이미지의 문자 식별 결과를 얻는 과정에서, 시맨틱 특징 및 심볼 특징을 결합하여, 심볼 식별 결과의 정확성을 제공할 수 있다.
예를 들어, 시맨틱 특징은
Figure pct00035
로 표시될 수 있고, 심볼 특징
Figure pct00036
로 표시될 수 있으며, 아래 공식(8) 및 공식(9)을 이용하여 시맨틱 특징 및 심볼 특징의 융합 결과를 얻을 수 있다.
Figure pct00037
공식(8);
Figure pct00038
공식(9);
여기서,
Figure pct00039
는 융합 결과를 표시할 수 있고; wt는 시맨틱 특징
Figure pct00040
및 심볼 특징
Figure pct00041
을 특징 가중화한 가중치를 표시할 수 있고;
Figure pct00042
는 제1 매핑 행렬을 표시할 수 있고, 여기서, 제1 매핑 행렬을 사용하여 시맨틱 특징
Figure pct00043
및 심볼 특징
Figure pct00044
를 2차원 벡터 공간에 매핑하며;
Figure pct00045
는 제1 편향 항을 표시할 수 있다.
융합 결과
Figure pct00046
를 얻은 후, 아래 공식(10)을 이용하여, 타깃 이미지의 문자 식별 결과를 얻을 수 있다.
Figure pct00047
공식(10);
여기서,
Figure pct00048
는 문자 식별 결과를 표시할 수 있고; W는 제2 매핑 행렬을 표시할 수 있으며, 여기서, 제2 매핑 행렬을 사용하여 융합 결과
Figure pct00049
를 선형 변환할 수 있고; b는 제2 편향 항일 수 있다.
본 구현 방식의 일 예에 있어서, 획득된 제2 기설정된 정보에 기반하여, 순차적으로 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징을 결정할 수 있고; 다음 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징 및 심볼 특징에 기반하여, 타깃 이미지가 적어도 하나의 시간 단계에서의 심볼 식별 결과를 얻는다.
본 예에 있어서, 획득된 제2 기설정된 정보는 실제 시나리오에 따라 선택된 것일 수 있고, 제2 기설정된 정보는 특별한 의미를 가지지 않을 수 있다. 예를 들어, 제2 기설정된 정보는 시작 명령어일 수 있다. 시간 단계의 단계 길이는 실제 적용 요구에 따라 설정될 수 있다. 각 간격 시간 단계 마다, 하나의 시맨틱 특징을 결정할 수 있고, 상이한 시간 단계로 얻은 시맨틱 특징은 상이할 수 있다. 여기서, 신경망을 이용하여 제2 기설정된 정보를 인코딩하여, 순차적으로 적어도 하나의 시간 단계에서의 시맨틱 특징을 얻을 수 있고, 다음 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징 및 적어도 하나의 시간 단계에서의 심볼 특징에 따라, 타깃 이미지가 적어도 하나의 시간 단계에서의 심볼 식별 결과를 얻을 수 있다. 하나의 시간 단계의 시맨틱 특징 및 동일한 시간 단계의 심볼 특징은 하나의 시간 단계의 심볼 식별 결과에 대응될 수 있고, 다시 말해 타깃 이미지에서의 심볼이 복수 개인 경우, 심볼 식별 결과는 심볼의 위치(심볼 특징) 및 시맨틱(시맨틱 특징)에 따라 순차적으로 얻음으로써, 심볼 식별 결과의 정확성을 향상시킬 수 있다.
본 예에 있어서, 제2 기설정된 정보에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 적어도 하나의 시간 단계에서 첫 번째 시간 단계의 시맨틱 특징을 얻을 수 있고; 다음 타깃 이미지가 k-1 번째 시간 단계에서의 심볼 식별 결과에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 타깃 이미지가 k 번째 시간 단계에서의 시맨틱 특징을 얻는다. 여기서, k는 1보다 큰 정수이다.
본 예에 있어서, 제2 기설정된 정보를 신경망에서 적어도 한 레벨의 제3 인코딩 처리의 입력 정보로 사용할 수 있다. 각 레벨 제3 인코딩 처리는 복수 개의 제3 인코딩 노드를 포함할 수 있고, 각 제3 인코딩 노드는 하나의 시간 단계의 입력 정보에 대응될 수 있다. 상이한 제3 인코딩 노드의 입력 정보는 상이할 수 있다. 상응하게, 하나의 제3 인코딩 노드는 하나의 출력 결과를 얻을 수 있다. 제1 레벨 제3 인코딩 처리에서 첫 번째 제3 인코딩 노드의 입력 정보는 제2 기설정된 정보일 수 있다. 제1 레벨 제3 인코딩 처리에서 제3 인코딩 노드의 출력 결과는 제2 레벨 제3 인코딩 처리에서 동일한 순서의 제3 인코딩 노드의 입력 정보로 사용할 수 있고, 이러한 방식으로, 마지막 레벨 제3 인코딩 처리까지 적용하고, 이와 같이, 제2 기설정된 정보를 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 마지막 레벨 제3 인코딩 처리에서 첫 번째 제3 인코딩 노드의 출력 결과를 얻을 수 있고, 상기 출력 결과는 적어도 하나의 시간 단계에서 첫 번째 시간 단계의 시맨틱 특징일 수 있다. 더 나아가 첫 번째 시간 단계의 시맨틱 특징과 동일한 시간 단계의 심볼 특징에 따라 첫 번째 시간 단계의 심볼 식별 결과를 얻을 수 있다. 제1 레벨 제3 처리에서 두 번째 제3 인코딩 노드의 입력 정보는 첫 번째 시간 단계의 심볼 식별 결과일 수 있다. 다음 첫 번째 시간 단계의 심볼 식별 결과를 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 두 번째 시간 단계의 시맨틱 특징을 얻을 수 있다. 더 나아가 두 번째 시간 단계의 시맨틱 특징과 동일한 시간 단계의 심볼 특징에 따라 두 번째 시간 단계의 심볼 식별 결과를 얻을 수 있다. 이러한 방식으로, 마지막 레벨 제3 인코딩 처리까지 적용한다. 마지막 레벨 제3 인코딩 처리에서, 마지막 제3 인코딩 노드의 출력 결과는 마지막 시간 단계의 시맨틱 특징일 수 있다. 즉, 타깃 이미지가 k-1 번째 시간 단계에서의 심볼 식별 결과를 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 타깃 이미지가 k 번째 시간 단계에서의 시맨틱 특징을 얻을 수 있다. K가 1보다 큰 정수인 경우, 즉, 제3 인코딩 노드가 현재 레벨의 제3 인코딩 처리에서 첫 번째 제3 인코딩 노드 이외의 다른 제3 인코딩 노드인 경우, 제3 인코딩 노드의 입력 정보는 상기 레벨의 제3 인코딩 처리에서 이전 한 제3 인코딩 노드의 출력 결과를 더 포함할 수 있음으로써, 상위 순서의 제3 인코딩 노드의 입력 정보는 하위 순서의 제3 인코딩 노드로 전달될 수 있음으로써, 제3 인코딩 노드의 입력 정보로 하여금 장기간 기억되게 하여, 얻은 시맨틱 특징으로 하여금 더욱 정확해지도록 할 수 있다.
설명해야 할 것은, 제2 기설정된 정보로 시맨틱 특징을 결정하는 과정은 도 2에 도시된 신경망을 사용하여 구현될 수 있고, 여기서, k 번째 시간 단계의 시맨틱 특징은 제2 레벨 제3 인코딩 처리에서 k 번째 제3 인코딩 노드의 출력 결과일 수 있다.
본 발명 실시예에 있어서, 신경망을 이용하여 타깃 이미지의 심볼 식별 결과를 얻을 수 있다. 아래는 예를 통해 신경망을 이용하여 타깃 이미지의 심볼 식별 결과를 얻는 과정을 설명한다.
도 3은 본 발명의 실시예에 따른 신경망을 이용하여 심볼 식별 결과를 얻는 일 예의 블록도이다. 본 예에 있어서, 신경망은 인코더 및 디코더를 포함할 수 있다. 먼저, 타깃 이미지를 신경망으로 입력하는 인코더에서, 인코더를 이용하여 타깃 이미지의 이미지 특징을 추출하여, 타깃 이미지의 제1 이미지 특징 F를 얻을 수 있다. 여기서, 31계층 잔차 신경망(Residual Neural Network, ResNet)의 네트워크 구조를 이용하여 타깃 이미지에 대해 이미지 특징 추출을 수행한다. 인코더는 위치 정보 증강 모듈을 포함할 수 있고, 위치 정보 증강 모듈을 이용하여 제1 이미지 특징에서의 위치 정보를 증강하여, 타깃 이미지의 제2 이미지 특징
Figure pct00050
을 얻을 수 있고, 위치 정보 증강 모듈의 네트워크 구조는 도2 에 도시된 바와 같을 수 있다. 다음 제2 이미지 특징 F를 디코더의 주의력 모듈에 입력하고, 주의력 모듈을 이용하여 제2 이미지 특징
Figure pct00051
과 위치 벡터
Figure pct00052
에 대해 행렬 곱셉 및 활성화 작업을 수행하여, 주의력 가중치를 얻은 다음, 주의력 가중치를 이용하여 제1 이미지 특징 F를 특징 가중화하여, 즉, 주의력 가중치와 제1 이미지 특징을 행렬 곱셈하여, 타깃 이미지의 심볼 특징을 얻을 수 있다. 디코더는 동적 융합 모듈을 더 포함하고, 동적 융합 모듈을 이용하여 심볼 특징 및 시맨틱 특징을 융합할 수 있고, 다음 융합 결과를 완전 연결 계층에 입력하여, 심볼 식별 결과를 얻을 수 있다.
여기서, 디코더는 위치 인코딩 모듈을 더 포함하고, 복수 개의 상수 “<next>”(제1 기설정된 정보)를 순차적으로 위치 인코딩 모듈에 입력하여, 즉, 각 시간 단계에 상수 “<next>”를 입력할 수 있다. 위치 인코딩 모듈은 두 개 인코딩 계층(제1 인코딩 처리에 대응됨)을 포함할 수 있고, 입력한 “<next>”를 인코딩하여, t 번째 시간 단계의 위치 벡터
Figure pct00053
를 얻을 수 있다. 여기서, 위치 인코딩 모듈은 두 개 계층 인코딩 계층을 포함할 수 있다. 디코더는 시맨틱 모듈을 더 포함하고, 특수 토큰 "<start>”(제2 기설정된 정보) 입력을 첫 번째 시간 단계의 입력 정보로서 시맨틱 모듈에 입력하여, 시맨틱 모듈이 출력한 첫 번째 시간 단계의 시맨틱 특징을 얻을 수 있다. 다음 첫 번째 시간 단계의 심볼 식별 결과
Figure pct00054
를 시맨틱 모듈의 두 번째 시간 단계의 입력 정보로 사용하여, 시맨틱 모듈가 출력한 두 번째 시간 단계의 시맨틱 특징을 얻을 수 있고, 이러한 방식으로, 시맨틱 모듈이 t 번째 시간 단계에서 출력한 시맨틱 특징
Figure pct00055
을 얻을 수 있다. 시맨틱 모듈은 두 개 계층 인코딩 계층을 포함할 수 있다. 위치 인코딩 모듈 및 시맨틱 모듈의 네트워크 구조는 도 2에서의 네트워크 구조와 유사할 수 있으며, 여기서 반복하여 설명하지 않는다.
예시적으로, 인코더는 위치 정보 증강 모듈을 포함하고, 디코더는 위치 인코딩 모듈, 주의력 모듈, 시맨틱 모듈 및 동적 융합 모듈을 포함하며; 여기서, 위치 정보 증강 모듈은 두 개 계층의 LSTM(도 2를 참조)를 포함하고, 두 개 계층 LSTM이 왼쪽으로부터 오른쪽으로 타깃 이미지의 제1 이미지 특징을 인코딩하는 것을 통해, 제1 이미지 특징의 인코딩 결과를 얻으며, 제1 이미지 특징의 인코딩 결과와 제1 이미지 특징을 더하여, 타깃 이미지의 제2 특징의 인코딩 결과를 얻음으로써, 제2 이미지 특징를 결정하고, 제2 이미지 특징을 위치 정보 증강 모듈의 출력으로 사용하고; 위치 인코딩 모듈은 두 개 계층의 LSTM을 포함하고; 위치 인코딩 모듈의 매회의 출력은 모두 특정된 출력이고, 본질로 하여금 하나의 심볼 길이의 카운터로 사용하고; 위치 인코딩 모듈을 사용하여 적어도 하나의 기설정된 정보를 두 개 레벨 제2 인코딩 처리를 수행하여, 위치 벡터를 얻을 수 있고; 위치 벡터 및 제2 이미지 특징 주의력 모듈에 입력하고, 주의력 모듈을 통해 제2 이미지 특징과 위치 벡터에 대해 행렬 곱셈 및 활성화 작업을 수행하여, 주의력 가중치를 얻으며; 주의력 가중치에 따라, 제1 이미지 특징의 평균 가중치를 얻어, 타깃 이미지의 심볼 특징을 얻음으로써; 제2 기설정된 정보를 시맨틱 모듈에 입력하여, 타깃 이미지의 시맨틱 특징을 얻고; 동적 융합 모듈을 이용하여 시맨틱 특징 및 심볼 특징에 대해 가중치 예측을 수행하여, 시맨틱 특징 및 심볼 특징의 평균 가중치를 융합 결과로 출력하여, 융합 결과를 예측 모듈에 입력하여, 예측 모듈을 통해 심볼 분류를 함으로써, 심볼 식별 결과를 얻는다.
본 발명 실시예는 심볼 인코딩 방안을 통해, 심볼 간의 위치 정보를 증강하는 것을 통해, 심볼 식별 결과가 시맨틱 특징에 대한 의존성을 감소시킴으로써, 심볼 식별로 하여금 더욱 정확해지도록 한다. 본 발명에서 제공한 심볼 인코딩 방안은 더욱 복잡한 심볼 식별 시나리오에 적용될 수 있고, 예를 들어, 불규치적인 심볼의 식별, 무 시맨틱 심볼의 식별 등에 적용될 수 있고, 이미지 식별 등 시나리오에 적용될 수도 있으며, 예를 들어, 이미지 리뷰, 이미지 분석 등에 적용될 수 있다.
이해할 수 있는 것은, 본 발명에서 언급된 상기 각 방법 실시예는, 원리 논리를 벗어나지 않는 조건 하에, 모두 서로 결합되어 결합후의 실시예를 구성할 수 있고, 편폭의 제한으로, 본 발명에서는 더이상 설명하지 않는다.
또한, 본 발명은 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 프로그램을 더 제공하고, 상기 분배 장치, 전자 기기, 컴퓨터 판독 가능한 저장 매체, 프로그램은 모두 본 발명에서 제공한 어느 하나의 심볼 식별 방법을 구현하는데 사용될 수 있으며, 상응하는 기술방안 및 설명 및 참조 방법 부분의 상응하는 기재는, 여기서 더이상 반복하여 설명하지 않는다.
당업자는 구체적인 실시 형태의 상기 방법에서, 각 단계의 기록 순서가 엄격한 실행 순서를 의미하지 않으며 실시 과정에서 어떠한 제한도 구성하지 않고,각 단계의 구체적인 실행 순서는 기능 및 가능한 내부 논리에 따라 결정하는 것으로 이해할 수 있다.
도 4는 본 발명의 실시예에 따른 심볼 식별 장치의 블록도이고, 도 4에 도시된 바와 같이, 상기 장치는,
식별될 타깃 이미지를 획득하도록 구성된 획득부(41);
결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻도록 구성된 결정부(42) - 상기 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것임 - ; 및
상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻도록 구성된 식별부(43)를 포함한다.
일 가능한 구현 방식에 있어서, 상기 결정부(42)는 또한, 상기 타깃 이미지의 제1 이미지 특징을 인코딩하여, 상기 제1 이미지 특징의 인코딩 결과를 얻고; 상기 제1 이미지 특징의 인코딩 결과에 따라, 상기 타깃 이미지의 제2 이미지 특징을 결정하며; 결정된 위치 벡터, 상기 제1 이미지 특징 및 상기 제2 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 결정부(42)는 또한, 순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 적어도 한 레벨의 제1 인코딩 처리를 수행하여, 상기 제1 이미지 특징의 인코딩 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 결정부(42)는 또한, 상기 적어도 한 레벨의 제1 인코딩 처리에서의 한 레벨의 제1 인코딩 처리에 대해, N 개의 제1 인코딩 노드를 이용하여 순차적으로 상기 제1 인코딩 노드의 입력 정보를 인코딩하여, N 개의 제1 인코딩 노드의 출력 결과를 얻고 - 1<i≤N인 경우, i 번째 제1 인코딩 노드의 입력 정보는 i-1 번째 제1 인코딩 노드의 출력 결과를 포함하고, N 및 i는 양의 정수임 - ; 상기 N 개의 제1 인코딩 노드의 출력 결과에 따라, 상기 제1 이미지 특징의 인코딩 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 제1 인코딩 노드의 입력 정보는, 상기 제1 이미지 특징의 제1 차원 특징 벡터 또는 이전 레벨의 제1 인코딩 처리의 출력 결과를 더 포함한다.
일 가능한 구현 방식에 있어서, 상기 결정부(42)는 또한, 상기 위치 벡터 및 상기 제2 이미지 특징에 따라, 주의력 가중치를 결정하고; 상기 주의력 가중치를 이용하여 상기 제1 이미지 특징을 특징 가중화하여, 상기 타깃 이미지의 심볼 특징을 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 장치는,
적어도 하나의 제1 기설정된 정보를 포함한 기설정된 정보 시퀀스를 획득하고; 순차적으로 상기 적어도 하나의 기설정된 정보에 대해 적어도 한 레벨의 제2 인코딩 처리를 수행하여, 상기 위치 벡터를 얻도록 구성된 인코딩부를 더 포함한다.
일 가능한 구현 방식에 있어서, 상기 인코딩부는 또한, 상기 적어도 한 레벨의 제2 인코딩 처리에서의 한 레벨의 제2 인코딩 처리에 대해, M 개의 제2 인코딩 노드를 이용하여 순차적으로 상기 제2 인코딩 노드의 입력 정보를 인코딩하여, M 번째 제2 인코딩 노드의 출력 결과를 얻고 - 1<j≤M인 경우, j 번째 제2 인코딩 노드의 입력 정보는 j-1 번째 제2 인코딩 노드의 출력 결과를 포함하고, M 및 j는 양의 정수임 - ; 상기 M 번째 제2 인코딩 노드의 출력 결과에 따라, 상기 위치 벡터를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 제2 인코딩 노드의 입력 정보는 상기 제1 기설정된 정보 또는 이전 레벨의 제2 인코딩 처리의 출력 결과를 더 포함한다.
일 가능한 구현 방식에 있어서, 상기 식별부(43)는 또한, 상기 타깃 이미지의 시맨틱 특징을 추출하고; 상기 타깃 이미지의 시맨틱 특징과 상기 심볼 특징에 기반하여, 상기 타깃 이미지의 심볼 식별 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 식별부(43)는 또한, 획득된 제2 기설정된 정보에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징을 순차적으로 결정하고; 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징 및 상기 심볼 특징에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 심볼 식별 결과를 얻도록 구성된다.
일 가능한 구현 방식에 있어서, 상기 식별부(43)는 또한, 상기 제2 기설정된 정보에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 적어도 하나의 시간 단계에서 첫 번째 시간 단계의 시맨틱 특징을 얻고; 상기 타깃 이미지가 k-1 번째 시간 단계에서의 심볼 식별 결과에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 타깃 이미지가 k 번째 시간 단계에서의 시맨틱 특징을 얻도록 구성 - k는 1보다 큰 양의 정수임 - 된다.
본 발명의 실시예 및 기타 실시예에 있어서, “부분”은 부분 회로, 부분 프로세서, 부분 프로그램 또는 소프트웨어 등일 수 있으며, 물론 유닛일 수도 있고, 모듈 방식 또는 비모듈 방식일수도 있다는 것이다.
일부 실시예에 있어서, 본 발명의 실시예에서 제공되는 장치에 포함된 기능 또는 모듈은 상기 방법 실시예에 설명한 방법을 실행하는데 사용될 수 있고,구체적인 구현은 상기 방법 실시예의 설명을 참조할 수 있으며,간결함을 위해 여기서 더이상 설명하지 않는다.
도 10은 일 예시적 실시예에 따라 도시된 심볼 식별 장치(800)의 블록도이다. 예를 들어, 장치(800)는 휴대폰, 컴퓨터, 디지털 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말기 등일 수 있다.
도 5를 참조하면, 장치(800)는, 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814), 및 통신 컴포넌트(816) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(802)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 장치(800)의 전체적인 동작을 제어한다. 처리 컴포넌트(802)는 상기 방법 단계의 전부 또는 일부를 구현하기 위한 명령어를 실행하기 위한 하나 또는 복수 개의 프로세서(820)를 포함할 수 있다. 또한, 처리 컴포넌트(802)는 처리 컴포넌트(802) 및 다른 컴포넌트 사이의 인터랙션을 용이하게 하기 위한 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808) 및 처리 컴포넌트(802) 사이의 교호를 용이하게 하기 위해, 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 장치(800)의 동작을 지지하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 장치(800)에서 동작하는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그래머블 읽기 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그래머블 읽기 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그래머블 읽기 전용 메모리(Programmable Read Only Memory, PROM), 읽기 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비 휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전원 컴포넌트(806)는 장치(800)의 다양한 컴포넌트에 전력을 공급한다. 전원 컴포넌트(1806)는 전원 관리 시스템, 하나 또는 복수 개의 전원 및 장치(800)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(808)는 상기 장치(800) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다 일부 실시예에 있어서, 스크린은 액정 모니터(LCD) 및 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터 오는 입력 신호를 수신하기 위해 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 수 있을 뿐만 아니라, 상기 터치나 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수도 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(808)는 하나의 전방 카메라 및 하나의 후방 카메라 중 적어도 하나를 포함한다. 장치(800)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 고정된 광학 렌즈 시스템이거나 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 컴포넌트(810)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 장치(800)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(804)에 추가로 저장되거나 통신 컴포넌트(816)에 의해 송신될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(810)는 오디오 신호를 출력하기 위한 스피커를 더 포함한다.
I/O 인터페이스(812)는 처리 부재(802)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.
센서 부재(814)는 장치(800)를 위한 다양한 방면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(814)는 장치(800)의 온/오프 상태, 컴포넌트의 상대적인 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 장치(800)의 모니터와 키패드이며, 센서 컴포넌트(814)는 장치(800) 또는 장치(800)에서의 하나의 컴포넌트의 위치 변화, 사용자와 장치(800) 접촉의 존재 유무, 장치(800) 방향 또는 가속/감속 및 장치(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 아무런 물리적 접촉이 없을 때 근처 물체의 존재를 검출하도록 구성된 근접 센서를 포함할 수 있다. 센서 컴포넌트(814)는 또한 이미징 응용에 사용하기 위한, CMOS 또는 CCD 이미지 센서와 같은 광 센서를 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(814)는 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 부재(816)는 장치(800)와 다른 기기 사이의 유선 또는 무선 방식으로 통신을 용이하게 하도록 구성된다. 장치(800)는 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 통신 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적인 실시예에서, 통신 컴포넌트(816)는 방송 채널을 통해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서, 상기 통신 컴포넌트(816)는근거리 통신을 촉진하는 근거리 통신(NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역 (Ultra Wideband,UWB) 기술, 블루투스(Bluetooth, BT) 기술 및 다른 기술을 기반으로 구현될 수 있다.
예시적 실시예에 있어서, 장치(800)는 하나 또는 복수 개의 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 장치(Digital Signal Processor, DSP), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 제어기, 마이크로 제어기, 마이크로 프로세서 또는 다른 전자 부품에 의해 구현되며, 상기 방법을 수행하기 위한 것이다.
예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(804)와 같은 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 방법을 완료하도록 장치(800)의 프로세서(820)에 의해 실행된다.
본 발명의 실시예는 또한 전자 기기를 제공하고, 프로세서; 및 프로세서가 실행 가능한 명령어를 저장하기 위한 메모리를 포함하며; 여기서, 상기 프로세서는 메모리(804)에 저장된 명령어를 호출하여, 상기 방법을 실행하도록 구성된다.
전자 기기는 단말, 서버 또는 다른 형태의 기기로 제공될 수 있다.
도 6은 일 예시적 실시예에 따라 도시한 전자 기기(1900)의 블록도이다. 예를 들어, 전자 기기(1900)는 하나의 서버로 제공될 수 있다. 도 6을 참조하면, 전자 기기(1900)는 하나 또는 복수 개의 프로세서를 더 포함하는 처리 컴포넌트(1922), 및 처리 컴포넌트(1922)에 의해 실행되는 명령어를 저장하기 위한 메모리(1932)로 대표되는 메모리 자원을 포함한다. 메모리(1932)에 저장된 애플리케이션은 하나 또는 하나 이상의 한 세트의 명령어에 각각 대응되는 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1922)는 상기 방법을 실행하기 위해 명령어를 실행하도록 구성된다.
전자 기기(1900)는 전자 기기(1900)의 전원 관리를 실행하도록 구성된 하나의 전력 컴포넌트(1926), 전자 기기(1900)를 네트워크에 연결하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1950) 및 하나의 입력 출력(I/O) 인터페이스(1958)를 더 포함할 수 있다. 전자 기기(1900)는 예를 들어 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것 등과 같은 메모리(1932)에 저장된 것에 기반한 운영 시스템을 조작할 수 있다.
예시적 실시예에 있어서, 컴퓨터 프로그램 명령어를 포함하는 메모리(1932)와 같은 컴퓨터 판독 가능한 저장 매체를 제공하며, 상기 컴퓨터 프로그램 명령어는 상기 방법을 완료하도록 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행된다.
본 출원은 시스템, 방법 및/또는 컴퓨터 프로그램 제품일 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능한 저장 매체를 포함할 수 있고, 컴퓨터 판독 가능한 저장 매체는 프로세서가 본 발명의 각 측면을 구현하도록 하는 컴퓨터 판독 가능한 프로그램 명령어를 포함한다.
컴퓨터 판독 가능 저장 매체는 명령어 실행 기기에 의해 실행되는 명령어를 유지 및 저장할 수 있는 타입의 기기일 수 있다. 컴퓨터 판독 가능한 저장 매체는 예를 들어 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기 또는 전술한 축전 기기, 자기 저장 기기, 광 저장 기기, 전자기 저장 기기, 반도체 저장 기기의 임의의 적절한 조합일 수 있지만 이에 한정되지 않는다. 컴퓨터 판독 가능한 저장 매체의 더 구체적인 예는(비제한 리스트), 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(Random Access Memory, RAM), 판독 전용 메모리(Read Only Memory, ROM) 및 소거 가능하고 프로그램 가능한 판독 전용 메모리((Erasable Programmable Read Only Memory, EPROM) 또는 플래시 메모리), 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 휴대용 컴팩트 디스크 판독 전용 메모리(Portable Compact Disk Read-Only Memory, CD-ROM), DVD (Digital Versatile Disk), 메모리 스틱, 플로피 디스크, 명령어가 저장된 장치와 같은 기계적 코딩 장치 홀 카드 또는 그루브에서의 볼록한 구조 및 전술한 임의의 적절한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능한 저장 매체는 무선 전자파 또는 다른 자유롭게 전파되는 전자기파, 도파관 또는 다른 전송 매체를 통해 전파되는 전자기파(예를 들어, 광섬유 케이블을 통한 광펄스), 또는 와이어를 통해 전송되는 전기 신호와 같은 순간 신호 자체로 해석되지 않아야 한다.
본문에서 설명된 컴퓨터 판독 가능프로그램 명령어는 컴퓨터 판독 가능 저장 매체로부터 각각의 컴퓨팅/처리 기기로 다운로드 될 수 있거나, 인터넷, 근거리 통신망(LAN), 광대역 통신망(WAN) 및 무선 네트워크 중 적어도 하나와 같은 네트워크를 통해, 외부 컴퓨터 또는 외부 저장 기기로 다운로드될 수 있다. 네트워크는 동 전송 케이블, 광섬유 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및 에지 서버 중 적어도 하나를 포함 할 수 있다. 각 컴퓨팅/처리 기기의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크로부터 컴퓨터 판독 가능한 프로그램 명령어를 수신하고, 각 컴퓨팅/처리 기기에서의 컴퓨터 판독 가능한 저장 매체에 저장하기 위해, 컴퓨터 판독 가능한 프로그램 명령어를 전달한다.
본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령어는 어셈블리 명령어, 명령어 세트 아키텍처(Instruction Set Architecture, ISA) 명령어, 머신 명령어, 머신 관련 명령어, 마이크로 코드, 펌웨어 명령어, 상태 설정 데이터, 또는 하나 또는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 객체 코드일 수 있고, 상기 프로그래밍 언어에는 스몰 토크, C++ 등과 같은 객체 지향 프로그래밍 언어 및 "C" 언어 또는 유사한 프로그래밍 언어와 같은 기존 프로그래밍 언어가 포함된다. 컴퓨터 판독 가능한 프로그램 명령어는 사용자 컴퓨터에서 완전히 또는 부분적으로 실행될수 있고, 독립형 소프트웨어 패키지로 실행되며, 부분적으로 사용자 컴퓨터에서, 부분적으로 원격 컴퓨터에서 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터와 관련된 상황에서 원격 컴퓨터는 근거리 통신망(Local Area Network, LAN) 또는 광대역 통신망(Wide Area Network, WAN)을 포함하는 모든 타입의 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어 인터넷 서비스 제공 업체를 사용하여 인터넷을 통해 연결). 일부 실시예에 있어서, 프로그램 가능한 논리 회로, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 프로그램 가능한 논리 어레이(Programmable Logic Array, PLA)와 같은 전자 회로는 컴퓨터 판독 가능 프로그램 명령어의 상태 정보를 이용하여 개인화될 수 있고, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령어를 실행할 수 있음으로써, 본 발명의 다양한 측면을 구현한다.
본 발명의 각 측면은 본 발명 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및 블록도 중 적어도 하나를 참조하여 설명된다. 이해해야 할 것은, 흐름도 및/또는 블록도의 각 블록 및 흐름도 및/또는 블록도의 각 블록의 조합은, 모두 컴퓨터 판독 가능 프로그램 명령어에 의해 구현될 수 있다.
이러한 컴퓨터 판독 가능한 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 제공 될 수 있음으로써, 이에 의해 이러한 명령어가 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 장치의 프로세서에 의해 실행되도록 하는 기계가 생성되고, 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 장치가 생성된다. 이러한 컴퓨터 판독 가능한 프로그램 명령어를 컴퓨터 판독 가능한 저장 매체에 저장할 수도 있으며, 이러한 명령어는 컴퓨터, 프로그램 가능한 데이터 처리 장치 및 다른 기기가 특정한 방식으로 작동될 수 있도록 함으로써, 명령어가 저장되어 있는 컴퓨터 판독 가능한 매체는 제조품을 포함하며, 상기 제조품은 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현하는 명령어를 포함한다.
컴퓨터 판독 가능한 프로그램 명령어는 또한 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에 로딩될 수 있어, 컴퓨터로 구현되는 과정을 생성하기 위해, 일련의 동작 단계가 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 수행되도록 함으로써, 컴퓨터, 다른 프로그램 가능한 데이터 처리 장치 또는 다른 기기에서 실행되는 명령어는 흐름도 및 블록도 중 적어도 하나에서 하나 또는 복수 개의 블록에 지정된 기능/동작을 구현한다.
도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 구현 가능한 체계 아키텍처, 기능 및 동작을 디스플레이한다. 이와 관련하여, 흐름도 또는 블록도의 각 블록은 모듈, 프로그램 세그먼트 또는 명령어의 일부를 나타낼 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령어의 일부는 하나 또는 복수 개의 지정된 논리적 기능을 구현하기 위한 실행 가능한 명령어를 포함한다. 일부 대안적인 구현에서, 블록에 표시된 기능은 도면에 표시된 것과 다른 순서로 발생될 수도 있다. 예를 들어, 2 개의 연속적인 블록은 실제로 기본상 병행하여 실행될 수 있거나, 이들은 때로는 역순으로 실행될 수 있으며, 이는 관련된 기능에 따라 결정된다. 또한 유의해야 할 것은, 블록도 및 흐름도 중 적어도 하나에서의 각 블록, 및 블록도 및 흐름도 중 적어도 하나에서의 블록의 조합은, 지정된 기능 또는 동작의 전용 하드웨어 기반의 시스템에 의해 구현될 수 있거나, 전용 하드웨어와 컴퓨터 명령어의 조합으로 구현될 수 있다.
이상 본 발명의 각 실시예를 설명하였고, 상기 설명은 예시적이고, 비철저하며, 개시된 각 실시예에 한정되지도 않는다. 설명된 각 실시예의 범위 및 사상을 벗어나지 않는 한, 많은 수정 및 변경은 본 기술분야의 기술자에게는 자명한 것이다. 본 명세서에서 사용된 용어의 선택은 각 실시예의 원리, 실제 응용 또는 시장에서의 기술에 대한 기술 개선을 가장 잘 해석하거나, 당업자가 본 명세서에 개시된 각 실시예를 이해할 수 있도록 의도된다.
본 발명의 실시예에 있어서, 식별될 타깃 이미지를 획득한 다음, 결정된 위치 벡터 및 타깃 이미지의 제1 이미지 특징에 기반하여, 타깃 이미지의 심볼 특징을 얻고, 심볼 특징에 기반하여 타깃 이미지에서의 심볼을 식별하여, 타깃 이미지의 심볼 식별 결과를 얻을 수 있다. 여기서, 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것이고, 심볼 간의 위치 특징을 표시할 수 있음으로써, 심볼 식별 과정에서, 심볼 간의 위치 특징이 심볼 식별 결과에 대한 영향을 증가시키고, 심볼 식별 과정에서 심볼 특징에 대한 의존성을 감소시켜, 심볼 식별의 정확율을 향상시킬 수 있다.

Claims (16)

  1. 심볼 식별 방법으로서,
    식별될 타깃 이미지를 획득하는 단계;
    결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계 - 상기 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것임 - ; 및
    상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  2. 제1항에 있어서,
    상기 결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계는,
    상기 타깃 이미지의 제1 이미지 특징을 인코딩하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계;
    상기 제1 이미지 특징의 인코딩 결과에 따라, 상기 타깃 이미지의 제2 이미지 특징을 결정하는 단계; 및
    결정된 위치 벡터, 상기 제1 이미지 특징 및 상기 제2 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  3. 제2항에 있어서,
    상기 타깃 이미지의 제1 이미지 특징을 인코딩하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계는,
    순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 적어도 한 레벨의 제1 인코딩 처리를 수행하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  4. 제3항에 있어서,
    순차적으로 상기 제1 이미지 특징의 복수 개의 제1 차원 특징 벡터에 대해 적어도 한 레벨의 제1 인코딩 처리를 수행하여, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계는,
    상기 적어도 한 레벨의 제1 인코딩 처리에서의 한 레벨의 제1 인코딩 처리에 대해, N 개의 제1 인코딩 노드를 이용하여 순차적으로 상기 제1 인코딩 노드의 입력 정보를 인코딩하여, N 개의 제1 인코딩 노드의 출력 결과를 얻는 단계 - 1<i≤N인 경우, i 번째 제1 인코딩 노드의 입력 정보는 i-1 번째 제1 인코딩 노드의 출력 결과를 포함하고, N 및 i는 양의 정수임 - ; 및
    상기 N 개의 제1 인코딩 노드의 출력 결과에 따라, 상기 제1 이미지 특징의 인코딩 결과를 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  5. 제4항에 있어서,
    상기 제1 인코딩 노드의 입력 정보는 상기 제1 이미지 특징의 제1 차원 특징 벡터 또는 이전 레벨의 제1 인코딩 처리의 출력 결과를 더 포함하는 것을 특징으로 하는 심볼 식별 방법.
  6. 제2항 내지 제5항 중 어느 한 항에 있어서,
    상기 결정된 위치 벡터, 상기 제1 이미지 특징 및 상기 제2 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계는,
    상기 위치 벡터 및 상기 제2 이미지 특징에 따라, 주의력 가중치를 결정하는 단계; 및
    상기 주의력 가중치를 이용하여 상기 제1 이미지 특징을 특징 가중화하여, 상기 타깃 이미지의 심볼 특징을 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 심볼 식별 방법은,
    적어도 하나의 제1 기설정된 정보를 포함하는 기설정된 정보 시퀀스를 획득하는 단계; 및
    순차적으로 상기 적어도 하나의 제1 기설정된 정보에 대해 적어도 한 레벨의 제2 인코딩 처리를 수행하여, 상기 위치 벡터를 얻는 단계를 더 포함하는 것을 특징으로 하는 심볼 식별 방법.
  8. 제7항에 있어서,
    상기 순차적으로 상기 적어도 하나의 제1 기설정된 정보에 대해 적어도 한 레벨의 제2 인코딩 처리를 수행하여, 상기 위치 벡터를 얻는 단계는,
    상기 적어도 한 레벨의 제2 인코딩 처리에서의 한 레벨의 제2 인코딩 처리에 대해, M 개의 제2 인코딩 노드를 이용하여 순차적으로 상기 제2 인코딩 노드의 입력 정보를 인코딩하여, M 번째 제2 인코딩 노드의 출력 결과를 얻는 단계 - 1<j≤M인 경우, j 번째 제2 인코딩 노드의 입력 정보는 j-1 번째 제2 인코딩 노드의 출력 결과를 포함하고, M 및 j는 양의 정수임 - ; 및
    상기 M 번째 제2 인코딩 노드의 출력 결과에 따라, 상기 위치 벡터를 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  9. 제8항에 있어서,
    상기 제2 인코딩 노드의 입력 정보는 상기 제1 기설정된 정보 또는 이전 레벨의 제2 인코딩 처리의 출력 결과를 더 포함하는 것을 특징으로 하는 심볼 식별 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계는,
    상기 타깃 이미지의 시맨틱 특징을 추출하는 단계; 및
    상기 타깃 이미지의 시맨틱 특징과 상기 심볼 특징에 기반하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  11. 제10항에 있어서,
    상기 타깃 이미지의 시맨틱 특징을 추출하는 단계는,
    획득된 제2 기설정된 정보에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징을 순차적으로 결정하는 단계를 포함하고;
    상기 타깃 이미지의 시맨틱 특징과 상기 심볼 특징에 기반하여, 상기 타깃 이미지의 심볼 식별 결과를 얻는 단계; 및
    상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징 및 상기 심볼 특징에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 심볼 식별 결과를 얻는 단계를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  12. 제11항에 있어서,
    상기 획득된 제2 기설정된 정보에 기반하여, 상기 타깃 이미지가 적어도 하나의 시간 단계에서의 시맨틱 특징을 순차적으로 결정하는 단계는,
    상기 제2 기설정된 정보에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 적어도 하나의 시간 단계에서 첫 번째 시간 단계의 시맨틱 특징을 얻는 단계; 및
    상기 타깃 이미지가 k-1 번째 시간 단계에서의 심볼 식별 결과에 대해 적어도 한 레벨의 제3 인코딩 처리를 수행하여, 상기 타깃 이미지가 k 번째 시간 단계에서의 시맨틱 특징을 얻는 단계 - k는 1보다 큰 정수임 - 를 포함하는 것을 특징으로 하는 심볼 식별 방법.
  13. 심볼 식별 장치로서,
    식별될 타깃 이미지를 획득하도록 구성된 획득부;
    결정된 위치 벡터 및 상기 타깃 이미지의 제1 이미지 특징에 기반하여, 상기 타깃 이미지의 심볼 특징을 얻도록 구성된 결정부 - 상기 위치 벡터는 기설정된 정보 시퀀스에서 심볼의 위치 특징에 기반하여 결정된 것임 - ; 및
    상기 심볼 특징에 기반하여 상기 타깃 이미지에서의 심볼을 식별하여, 상기 타깃 이미지의 심볼 식별 결과를 얻도록 구성된 식별부를 포함하는 것을 특징으로 하는 심볼 식별 장치.
  14. 전자 기기로서,
    프로세서; 및
    프로세서가 실행가능한 명령어를 저장하기 위한 메모리를 포함하고,
    상기 프로세서는, 상기 메모리에 저장된 명령어를 호출하여, 제1항 내지 제12항 중 어느 한 항에 따른 심볼 식별 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기.
  15. 컴퓨터 판독 가능한 저장 매체로서,
    상기 컴퓨터 판독 가능한 저장 매체에는 컴퓨터 프로그램 명령어가 저장되고, 상기 컴퓨터 프로그램 명령어가 프로세서에 의해 실행될 때 제1항 내지 제12항 중 어느 한 항에 따른 심볼 식별 방법을 구현하는 것을 특징으로 하는 컴퓨터 판독 가능한 저장 매체.
  16. 컴퓨터 프로그램으로서,
    컴퓨터 판독 가능 코드를 포함하며, 상기 컴퓨터 판독 가능한 코드가 전자 기기에서 작동될 때, 상기 전자 기기에서의 프로세서는 제1항 내지 제12항 중 어느 한 항에 따른 심볼 식별 방법을 실행하는 것을 특징으로 하는 컴퓨터 프로그램.
KR1020227000935A 2020-04-16 2021-03-19 심볼 식별 방법 및 장치, 전자 기기 및 저장 매체 KR20220011783A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010301340.3A CN111539410B (zh) 2020-04-16 2020-04-16 字符识别方法及装置、电子设备和存储介质
CN202010301340.3 2020-04-16
PCT/CN2021/081759 WO2021208666A1 (zh) 2020-04-16 2021-03-19 字符识别方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20220011783A true KR20220011783A (ko) 2022-01-28

Family

ID=71974957

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227000935A KR20220011783A (ko) 2020-04-16 2021-03-19 심볼 식별 방법 및 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
JP (1) JP2022533065A (ko)
KR (1) KR20220011783A (ko)
CN (1) CN111539410B (ko)
TW (1) TW202141352A (ko)
WO (1) WO2021208666A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539410B (zh) * 2020-04-16 2022-09-06 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质
CN113052156B (zh) * 2021-03-12 2023-08-04 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备和存储介质
CN113610081A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN115063799B (zh) * 2022-08-05 2023-04-07 中南大学 一种印刷体数学公式识别方法、装置及存储介质
CN115546810B (zh) * 2022-11-29 2023-04-11 支付宝(杭州)信息技术有限公司 图像元素类别的识别方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555308C (zh) * 2005-07-29 2009-10-28 富士通株式会社 地址识别装置和方法
JP5417113B2 (ja) * 2009-10-02 2014-02-12 シャープ株式会社 情報処理装置、情報処理方法、プログラムおよび記録媒体
US10354168B2 (en) * 2016-04-11 2019-07-16 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта
CN108062290B (zh) * 2017-12-14 2021-12-21 北京三快在线科技有限公司 消息文本处理方法及装置、电子设备、存储介质
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
JP2019215647A (ja) * 2018-06-12 2019-12-19 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム。
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
WO2020068945A1 (en) * 2018-09-26 2020-04-02 Leverton Holding Llc Named entity recognition with convolutional networks
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109615006B (zh) * 2018-12-10 2021-08-17 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN110659640B (zh) * 2019-09-27 2021-11-30 深圳市商汤科技有限公司 文本序列的识别方法及装置、电子设备和存储介质
CN110991560B (zh) * 2019-12-19 2023-07-07 深圳大学 一种结合上下文信息的目标检测方法及系统
CN111539410B (zh) * 2020-04-16 2022-09-06 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
TW202141352A (zh) 2021-11-01
WO2021208666A1 (zh) 2021-10-21
CN111539410A (zh) 2020-08-14
CN111539410B (zh) 2022-09-06
JP2022533065A (ja) 2022-07-21

Similar Documents

Publication Publication Date Title
TWI781359B (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
TWI773481B (zh) 圖像處理方法及裝置、電子設備和電腦可讀儲存介質
KR20220011783A (ko) 심볼 식별 방법 및 장치, 전자 기기 및 저장 매체
KR20210102180A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
TW202036464A (zh) 文本識別方法及裝置、電子設備和儲存介質
CN111445493B (zh) 图像处理方法及装置、电子设备和存储介质
KR20210019537A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 기억 매체
KR20200131305A (ko) 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체
CN111612070B (zh) 基于场景图的图像描述生成方法及装置
TW202113660A (zh) 文本序列的識別方法、電子設備和電腦可讀存儲介質
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
CN110458218B (zh) 图像分类方法及装置、分类网络训练方法及装置
KR102454515B1 (ko) 네트워크 최적화 방법 및 장치, 이미지 처리 방법 및 장치, 및 기억 매체
CN113326768B (zh) 训练方法、图像特征提取方法、图像识别方法及装置
CN109145150B (zh) 目标匹配方法及装置、电子设备和存储介质
CN111401230B (zh) 姿态估计方法及装置、电子设备和存储介质
CN111582383B (zh) 属性识别方法及装置、电子设备和存储介质
CN112906484B (zh) 一种视频帧处理方法及装置、电子设备和存储介质
CN110781813A (zh) 图像识别方法及装置、电子设备和存储介质
KR20210024631A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
CN111523599B (zh) 目标检测方法及装置、电子设备和存储介质
CN111652107B (zh) 对象计数方法及装置、电子设备和存储介质
KR20210113242A (ko) 검출기의 배치 방법 및 장치, 전자 기기 및 기억 매체
CN113139484B (zh) 人群定位方法及装置、电子设备和存储介质
CN111988622B (zh) 视频预测方法及装置、电子设备和存储介质