KR20210036319A - 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기 - Google Patents

텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기 Download PDF

Info

Publication number
KR20210036319A
KR20210036319A KR1020210033503A KR20210033503A KR20210036319A KR 20210036319 A KR20210036319 A KR 20210036319A KR 1020210033503 A KR1020210033503 A KR 1020210033503A KR 20210033503 A KR20210033503 A KR 20210033503A KR 20210036319 A KR20210036319 A KR 20210036319A
Authority
KR
South Korea
Prior art keywords
text
image
center line
feature
dial
Prior art date
Application number
KR1020210033503A
Other languages
English (en)
Inventor
산산 리위
청쵠 장
쇈 리
멍이 은
하이룬 쉬
샤오챵 장
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210036319A publication Critical patent/KR20210036319A/ko

Links

Images

Classifications

    • G06K9/20
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/46
    • G06K9/6267
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

본 개시는 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기를 공개하였으며, 컴퓨터 기술 분야에서의 텍스트 식별 기술 분야에 속한다. 구체적인 방법으로는, 다이얼 이미지를 획득하여; 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하며; 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별한다. 이러한 방식으로, 전자 기기는 다이얼 이미지의 텍스트 콘텐츠를 정확하고 빠르게 식별할 수 있어, 계기판의 계량 콘텐츠의 식별 정확도와 효율성이 향상된다.

Description

텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기 {METHOD, APPARATUS AND ELECTRONIC DEVICE FOR IDENTIFYING TEXT CONTENT}
본 출원은 컴퓨터 기술 분야에서의 텍스트 식별 기술에 관한 것으로, 특히 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기에 관한 것이다.
계기판은 계량 장치로써, 기계 제조, 수도 시스템, 전력 시스템, 자동차 및 의료 등 다양한 분야에서 널리 사용되고 있다. 현재, 계기판 계량 기술이 발전함에 따라, 기존의 포인터 계기판은 점차 디지털 계기판에 대체되고, 디지털 계기판은 액정 표시 패널 등이 설정된 다이얼(dial)에 의해 계량 지표 및 계량 수치 등 계량 콘텐츠를 표시한다.
현재 일반적으로, 계기판의 검침 효율을 제고하기 위해, 계기판에 설치된 데이터 획득 장치를 사용하여 계기판의 이미지를 획득한 후, 서버 등의 전자 기기에 의해 계기판의 이미지에서의 계량 콘텐츠를 식별한다. 그러나, 현재 계기판의 계량 콘텐츠의 식별 프로세스에서, 계량 콘텐츠의 식별 오류가 쉽게 발생하기에, 계기판의 계량 콘텐츠의 식별 정확도가 떨어진다.
보다시피, 현재 계기판의 계량 콘텐츠의 식별 프로세스에는, 식별 정확도가 낮은 문제점이 존재한다.
현재 계기판의 계량 콘텐츠의 식별 프로세스에서, 식별 정확도가 낮은 문제점을 해결하기 위하여, 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기를 제공한다.
제1 측면에 있어서, 전자 기기에 적용되는 텍스트 콘텐츠의 식별 방법을 제공한다. 상기 방법은, 다이얼 이미지를 획득하는 단계; 상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 단계; 및 상기 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별하는 단계; 를 포함한다.
제 2 측면에 있어서, 전자 기기에 적용되는 텍스트 콘텐츠의 식별 장치를 제공한다. 상기 장치는, 다이얼 이미지를 획득하는 이미지 획득 모듈; 상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 검측 모듈; 및 상기 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별하는 식별 모듈;을 포함한다.
제 3 측면에 있어서, 전자 기기를 제공한다. 상기 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 연결된 메모리; 를 포함하고, 상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행되는 명령을 저장하며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되여, 상기 적어도 하나의 프로세서로 하여금 상기 제1 측면에 따른 상기 방법을 수행하도록 한다.
제 4 측면에 있어서, 컴퓨터 명령을 저장하는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기 제1 측면에 따른 상기 방법을 수행하도록 한다.
본 개시에서, 다이얼 이미지를 획득하여; 상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하며; 상기 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별한다. 이러한 방식으로, 전자 기기는 다이얼 이미지에서의 텍스트 콘텐츠를 정확하고 빠르게 식별할 수 있으므로, 계기판의 계량 콘텐츠의 식별 정확도와 효율성이 향상된다.
이 부분에서 기술된 내용은, 본 개시 실시예들의 핵심 또는 중요한 특징들을 식별하기 위한 것이 아니며, 또한 본 개시 내용의 범위를 제한하려는 의도도 아님을 이해해야 한다. 본 개시의 기타 특징들은 아래의 설명에 의해 쉽게 이해될 것이다.
도면들은 본 발명을 보다 잘 이해하기 위해 사용하는 것일 뿐, 본 개시를 한정하는 것은 아니다.
도 1은 본 개시의 제1 실시예에 따른 예시도 1이다.
도 2는 본 개시의 제1 실시예에 따른 예시도 2이다.
도 3은 본 개시의 제 2 실시예에 따른 예시도 1이다.
도 4는 본 개시의 제 2 실시예에 따른 예시도 2이다.
도 5는 본 개시의 제 2 실시예에 따른 예시도 3이다.
도 6은 본 개시의 제 2 실시예에 따른 예시도 4이다.
도 7은 본 개시의 제 2 실시예에 따른 예시도 5이다.
도 8은 본 개시의 제 2 실시예에 따른 예시도 6이다.
도 9는 본 개시의 실시예에 따른 텍스트 콘텐츠의 식별 방법을 구현하는 전자 기기의 블록도이다.
이하, 도면에 결부하여, 본 개시의 예시적인 실시예들을 설명하되. 여기에 포함된 이해를 돕기 위한 본 개시의 실시예들의 다양한 세부 사항들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 당업자들은 여기에 설명된 실시예들에 대해 다양한 변경 및 수정을 수행할 수 있으며, 이는 본 개시의 범위 및 사상을 벗어나지 않음을 인식해야 한다. 마찬가지로, 이하의 설명에서, 명확성과 간결성을 위해 공지의 기능 및 구조에 대한 설명은 생략한다.
도 1을 참조하면, 본 개시의 실시예는 전자 기기에 적용되는 텍스트 콘텐츠의 식별 방법을 제공하고, 도 1에 도시된 바와 같이, 상기 텍스트 콘텐츠의 식별 방법은 아래의 단계들을 포함한다.
단계 101은, 다이얼 이미지를 획득한다.
본 개시에서, 전자 기기는 계기판의 촬영 이미지를 수신한 경우, 계기판의 촬영 이미지를 통해 다이얼 이미지를 획득한다. 여기서, 다이얼 이미지는, 촬영 이미지 중 계기판의 다이얼이 위치한 영역의 이미지를 포함하고, 다이얼은 계기판 중 디스플레이 스크린이 위치한 영역을 가리킨다.
예컨대, 도 2에 도시된 바와 같이, 전자 기기는 입력된 계기판의 촬영 이미지(21)를 수신하고, 전자 기기는 촬영 이미지(21)에서의 다이얼이 위치한 영역의 이미지(211)를 통해 다이얼 이미지(22)를 생성한다.
설명해야 할 것은, 전자 기기가 계기판의 촬영 이미지에 의해 획득된 다이얼 이미지는, 전자 기기가 촬영 이미지에서의 오퍼레이터의 마킹 작업을 수신한 것일 수 있으며, 해당 마킹 작업은 촬영 이미지 중 계기판의 다이얼이 위치한 영역의 이미지를 마킹하기 위한 것이며; 전자 기기는 해당 마킹 작업에 응답하여, 해당 마킹 작업에 의해 마킹된 이미지를 상기 다이얼 이미지로 생성한다.
또는, 일부 실시예에서, 단계 101은, 계기판의 촬영 이미지를 수신한 경우, 촬영 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 촬영 이미지를 획득하는 단계; 멀티 스케일 특징을 구비한 촬영 이미지에 대해 특징 분류 및 회귀 처리를 진행하여, 촬영 이미지의 다이얼 영역을 확정하는 단계; 및 다이얼 영역의 이미지의 출력을 다이얼 이미지로 하는 단계;를 포함할 수 있다.
여기서, 전자 기기는 계기판의 촬영 이미지에 대해 멀티 스케일 특징 처리, 중심선 검측 및 바운딩 프레임 회귀 처리를 진행하여, 촬영 이미지 중 계기판의 다이얼의 위치를 정확하게 식별할 수 있으며, 나아가 계기판 중 텍스트 콘텐츠의 식별 정확도를 제고시킨다.
여기서, 촬영 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하는 단계는, 특징 맵 처리에 사용되는 알고리즘을 미리 설정하여 구현할 수 있다.
구체적으로, 도 2에 도시된 질량 제어 프로세서에서, 입력 이미지(즉 상기 촬영 이미지)에 대해서는, 우선 메인 네트워크에서의 경량급 네트워크(예컨대, 복합 스케일링 방법으로 기존의 컨볼루션 뉴럴 네트워크(CNN)를 최적화하는 경량급 네트워크 EfficientNetB0Small 등)에 의해 주체 특징 추출을 진행하고, 딥 러닝 분할 네트워크(예컨대, UNet)에 결합하여 특징 차원의 멀티 스케일 적응을 구현하며, 즉 입력 이미지에 대해 우선 다운 샘플링한 후, 부동한 수준의 컨볼루션을 통해 러닝하여 입력 이미지의 딥 레벨 특징(EfficientNetB0Small에서 구현)을 얻으며, 마지막으로 입력 이미지의 딥 레벨 특징을 업 샘플링을 통해 오리지널 이미지 크기로 복원하여, 멀티 스케일 특징을 구비한 입력 이미지를 획득한다. 여기서, 업 샘플링은 디콘볼루션에 의해 구현된다. 여기서, 경량급 네트워크로 촬영 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하므로, 처리의 정확도와 효율이 향상될 수 있다.
또한, 전자 기기는 계기판의 촬영 이미지에 대해 멀티 스케일 특징 맵 처리를 진행한 후, 멀티 스케일 특징을 구비한 촬영 이미지에 대해 특징 맵 분류 및 회귀 처리를 진행하여, 촬영 이미지에서의 다이얼의 영역을 확정한다.
구체적으로, 도 2에 도시된 바와 같이, 멀티 스케일 특징을 구비한 입력 이미지를 획득한 후, 전자 기기는 질량 제어 프로세스의 East 검측에서 멀티 특징을 구비한 입력 이미지를 분류 및 회귀한다. 예컨대, 분류 및 회귀 네트워크는 모두 2 레벨 3X3의 네트워크와 하나의 분류레이어을 통해 전망 및 회귀 위치 정보를 추출하고, 분류는 dice_loss를 통해 감독 학습하며, 회귀는 smooth_l1_loss를 통해 감독 학습하므로, 촬영 이미지에서의 다이얼 위치를 확정하여, 촬영 이미지에서 다이얼 영역의 위치 확정을 구현할 수 있다.
물론, 촬영 이미지의 사진 특징에 대해 멀티 스케일 특징 처리를 진행하는 단계 전에, 전자 기기는 촬영 이미지를 사전 처리할 수도 있으며, 구체적으로 촬영된 이미지를 미리 설정된 크기로 커팅하고, 및 촬영 이미지에 대해 평균치 절감 처리 등을 진행할 수 있다.
예컨대, 계기판의 촬영 이미지를 수신한 경우, 전자 기기는 입력 이미지를 장면에 따라 미리 설정된 크기 (예컨대, 256 스케일)로 동일하게 변경하여, 다이얼 이미지를 획득하는 처리 속도를 향상시킬 수 있으며; 또한, 이미지에 대해 평균치 절감 처리를 진행하여, 계산의 복잡성을 줄이는 동시에 개별 특징 차이를 돋보일 수 있다.
단계 102는, 상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선과 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측한다.
본 개시에서, 전자 기기는 다이얼 이미지를 획득한 후, 다이얼 이미지에서의 적어도 하나의 텍스트 중심선과 적어도 하나의 바운딩 프레임을 검측할 수 있으며, 또한 적어도 하나의 텍스트 중심선과 적어도 하나의 바운딩 프레임은 각각 대응되며, 즉 각 텍스트 중심선은 이에 대응되는 하나의 바운딩 프레임을 구비한다.
여기서, 각 텍스트 중심선은 다이얼 이미지 중 하나의 행 텍스트의 중심선이고, 각 바운딩 프레임은 이에 대응되는 텍스트 중심선 상의 텍스트의 외측 가장자리에 따라 형성된 베젤이다.
설명해야 할 것은, 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 단계는, 텍스트 중심선과 바운딩 프레임을 검측하는 임의의 미리 설정된 알고리즘을 통해 구현될 수 있으며, 여기서 이에 대해 제한하지 않는다.
구체적으로, 도 2에 도시된 바와 같이, 엔드 투 엔드 식별(1 단계 one-stage의 엔드 투 엔드 식별일 수 있음) 프로세서에서 전자 기기는, 다이얼 이미지의 특징을 검측 분기의 입력으로 사용하여, 다이얼 이미지의 텍스트 중심선 검측 및 회귀 텍스트 중심선의 바운딩 프레임의 목표를 구현한다. 여기서, 해당 검측 분기는 텍스트 중심선 검측과 텍스트 중심선 바운딩 회귀인 2개 부분으로 나뉘며, 구체적으로는 아래와 같다.
텍스트 중심선 검측에서, 주간 특징(다이얼 이미지의 특징)은 우선, 복수의 컨볼루션 레이어를 통해 전경 및 배경의 분류를 검측하는 특징 맵을 획득하고, 단일 필터의 컨볼루션 레이어를 통해 단일 특징 맵(map)을 획득하여, 전경 및 배경의 분할을 표현하고, 다음, 분할된 전경과 배경에 대해 감독 학습(예컨대, dice-loss 감독 학습)을 진행하여 전경이 1이고 배경이 0인 특징 맵을 획득하고, 특징 맵 중 텍스트 중심선 위치에서 고휘도 형식을 나타내며, 다이얼 이미지의 텍스트 중심을 확정하는 것을 실현할 수 있다.
텍스트 중심선 바운딩 회귀에서, 주간 특징은 우선 복수의 레이어의 컨볼루션을 통해 고레이어 특징을 획득한 후, 제1 수량의 필터(예컨대, 4개 필터)를 포함한 컨볼루션을 통해 분류 결과를 획득하고(분류 결과는 제1 수량의 특징 맵을 포함하고 있음), 제1 수량의 특징 맵(예컨대, 4개 특징 맵)은 각 픽셀 포인트로부터 중심선의 업 바운드 및 다운 바운드까지(x,y)의 거리를 표현하며, 마지막으로, 제1 수량의 특징 맵에 대한 감독 학습(예컨대, smoothl1-loss 감독 학습)을 통해, 중심선의 바운딩 외측 베젤을 회귀해낼 수 있다.
일부 실시예에서, 단계 102 전에, 상기 방법은 다이얼 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 다이얼 이미지를 획득한다.
여기서, 전자 기기는 다이얼 이미지에 대해 멀티 특징 처리를 진행하여, 계기판의 텍스트 식별 프로세스에서 부동한 해상도의 다이얼 이미지에 적용할 수 있으므로, 텍스트 식별의 정확도가 향상된다.
여기서, 다이얼 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하는 단계는, 멀티 스케일 특징 처리를 진행하는 알고리즘을 미리 설정하여 구현할 수 있다.
구체적으로, 전자 기기는 경량급 네트워크(예컨대, EfficientNetB0Small 등) 및 특징 맵 피라미드 네트워크(Feature Pyramid Networks, EPN)를 통해 다이얼 이미지의 이미지 특징에 대해 멀티 특징 처리를 진행할 수 있다. 즉, 도 2에 도시된 바와 같이, 엔드 투 엔드 식별 프로세스에서의 메인 네트워크에서, 전자 기기는 경량급 네트워크를 사용하여 다이얼 이미지의 부동한 스케일의 특징을 부동한 블록(block)에 저장한 후, FPN 네트워크를 통해 보다 추상적이고, 의미있는 고레이어 특징 맵에 대해 업 샘플링을 수행하고, 해당 업 샘플링된 후의 특징을 전레이어의 특징에 가로 방향으로 연결한다. 따라서, 다이얼 이미지의 하이 레벨 특징이 강화되고, 각 레이어의 예측에 사용되는 특징 맵(feature map)이 부동한 해상도 및 부동한 의미의 특징을 모두 융합하여, 해상도 크기에 대응되는 물체에 대해 검측할 수 있으므로, 모든 각 레벨이 적절한 해상도 및 강한 의미 특징을 갖도록 보장한다.
물론, 다이얼 이미지에 대해 검측을 수행하는 단계 102 전에, 전자 기기는 다이얼 이미지에 대해 사전 처리를 진행할 수 있다. 구체적으로, 단계 102 전에, 다이얼 이미지에 대해 사전 처리를 진행하는 단계를 더 포함할 수 있다. 여기서, 사전 처리는, 상기 다이얼 이미지를 미리 설정된 스케일로 커팅하는 것; 및 다이엘 이미지에 대해 평균치 절감 처리를 진행하는 것을 포함함으로써, 다이얼 이미지를 획득하는 처리 속도가 향상될뿐만 아니라, 계산 복잡성이 줄어들고 개별 특징 차이가 돋보이게 된다.
단계 103은, 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별한다.
본 개시에서, 전자 기기가 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측한 후, 전자 기기는 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별할 수 있다.
여기서, 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별하는 단계는, 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 해당 텍스트 중심선 상에 위치한 텍스트를 식별하는 임의의 방법에 의해 구현될 수 있으며, 여기서 이에 대해 제한하지 않는다.
구체적으로, 단계 103은, 타겟 텍스트 중심선 및 제1 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 타겟 행 텍스트와 대응되는 적어도 하나의 샘플링 포인트의 텍스트 특징을 획득하는 단계 - 타겟 행 텍스트는 타겟 텍스트 중심선에 대응되는 바운딩 프레임 내에 위치하고, 타겟 텍스트 중심선은 상기 적어도 하나의 텍스트 중심선 중의 임의의 하나의 텍스트 중심선임 -; 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하여, 타겟 텍스트 특징의 시퀀스를 획득하는 단계; 미리 설정된 손실 함수를 통하여 타겟 텍스트 특징의 시퀀스에 대해 감독 학습을 진행하는 단계; 및 감독 학습 후의 타겟 텍스트 특징의 시퀀스에 대해 디코딩을 진행하여, 타겟 행 텍스트의 텍스트 콘텐츠를 획득하는 단계;를 포함할 수 있다.
여기서, 텍스트 시퀀스 중심선 상의 샘플링 포인트에 대해 특징 추출을 수행하고, 및 추출된 특징에 대해 감독 학습을 진행하여, 텍스트 중심선에 대응되는 텍스트 콘텐츠에 대한 식별을 구현함으로써, 식별 정확도가 향상된다.
여기서, 전자 기기는 임의의 하나의 텍스트 중심선 및 해당 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지에서의 타겟 텍스트에 대응되는 적어도 하나의 샘플링 포인트의 텍스트 특징을 획득하며, 예컨대, 클래식 CNN 네트워크에 의해 구현될 수 있다.
또는, 도 2에 도시된 바와 같이, 식별 분기는 검측 출력 위치의 내용을 식별하는 것이며, 부동한 식별 임무의 분류 카테고리 개수는 부동하며, 카테고리 개수는 식별된 필드의 개수를 의미한다. 해당 구현하는 프로세서는: 전자 기기가 엔드 투 엔드 식별 프로세서에서의 메인 네트워크 출력의 특징(즉 상기 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임가 대응하는 특징)을 식벽 분기의 출력으로 하고, 컨볼루션과 카테고리 개수 +1개 필터에 의해 텍스트 특징을 추출하며, 해당 텍스트 특징은 전체 이미지 레벨의 특징이고 f_char로 기록한다. 다음, 전체 이미지 레벨의 특징에 근거하여 텍스트 중심선 상의 텍스트 특징(즉, 타겟 행 텍스트에 대응되는 적어도 하나의 샘플링 포인트의 텍스트 특징)을 학습한다. 예컨대, 딥 러닝 훈련 프레임 집적 도구에 의해 gather_nd 레이어(여기서, gather_nd 레이어는 멀티 디멘션 벡터 인덱스를 통해 특징 맵으로부터 비연속적인 특징을 추출하는 것을 지지함)에서 특징 추출을 진행한다. 즉, 데이터 처리 단계에서 텍스트 중심선상의 샘플링 포인트의 개수를 미리 설정하고, 데이터 처리를 통해 샘플링 포인트의 위치와 대응한 라벨(label)을 정의하여 tcl_pos로 기록한 다음, f_char과 tcl_pos를 gather_nd 레이어로 전송하여 텍스트 중심선상의 샘플링 포인트의 특징을 획득한다. 여기서, 획득한 샘플링 포인트의 특징의 디멘션은 가테고리 개수 +1을 구비한다.
또한, 전자 기기는 클래식 warpctc loss를 손실 함수로 사용하여, 타겟 텍스트 특징의 시퀀스에 대해 감독 학습을 진행한 다음, ctc 디코딩을 통해 예측한 샘플(즉, 타겟 행 텍스트의 텍스트 콘텐츠) 출력을 획득할 수 있다.
일부 실시예에서, 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하는 단계 전에, 상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 배경 억제 처리를 진행하는 단계를 더 포함할 수 있다.
적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하는 단계는, 배경 억제 처리 후의 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하는 단계를 포함한다.
여기서, 샘플링 포인트의 텍스트 특징에 대해 배경 억제 처리를 진행하여, 식별의 정확도를 진일보로 향상시킬 수 있다.
설명해야 할 것은, 추출한 샘플링 포인트의 텍스트 특징은 전경 정보와 배경 정보를 포함하므로, 전자 기기는 추출한 샘플링 포인트의 텍스트 특징에 대해 배경 억제 처리를 진행할 수 있다. 예컨대, mask를 통해 배경 map의 배경에 대해 강화 처리하고, 전경 map의 배경에 대해 제어 처리하여, 배경 map이 예측한 배경의 확률은 모두 1 이고, 전경 map이 예측한 배경의 확률은 모두 0인 것으로 보장한다.
본 개시에서, 다이얼 이미지를 획득하여, 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하며, 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별한다. 이러한 방식으로, 전자 기기는 다이얼 이미지의 텍스트 콘텐츠를 정확하고 빠르게 식별할 수 있어, 계기판의 계량 콘텐츠의 식별 정확도와 효율성이 향상된다.
도 3을 참조하면, 본 개시의 실시예는 전자 기기에 적용되는 텍스트 콘텐츠 식별 장치를 제공한다. 도 3에 도시된 바와 같이, 텍스트 콘텐츠의 식별 장치(300)는, 다이얼 이미지를 획득하는, 이미지 획득 모듈(301); 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 검측 모듈(302); 및 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별하는 식별 모듈(303);을 포함한다.
선택적으로, 도 4에 도시된 바와 같이, 식별 모듈(303)은, 타겟 텍스트 중심선 및 제1 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 타겟 행 텍스트와 대응되는 적어도 하나의 샘플링 포인트의 텍스트 특징을 획득하는 특징 획득 유닛(3031) - 타겟 행 텍스트는 타겟 텍스트 중심선에 대응되는 바운딩 프레임내에 위치하고, 타겟 텍스트는 적어도 하나의 텍스트 중심선 중의 임의의 하나의 텍스트 중심선임 -; 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하여, 타겟 텍스트 특징의 시퀀스를 획득하는 시퀀스화 유닛(3032); 미리 설정된 손실 함수를 통하여 타겟 텍스트 특징의 시퀀스에 대해 감독 학습을 진행하는 감독 학습 유닛(3033); 및 감독 학습 후의 상기 타겟 텍스트 특징의 시퀀스에 대해 디코딩을 진행하여, 상기 타겟 행 텍스트의 텍스트 콘텐츠를 획득하는 디코딩 유닛(3034);을 포함한다.
선택적으로, 도 5에 도시된 바와 같이, 상기 식별 모듈(303)은, 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 배경 억제 처리를 진행하는 배경 억제 유닛(3055)을 더 포함할 수 있다.
시퀀스화 유닛(3032)은 구체적으로, 배경 억제 처리 후의 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하기 위한 것이다.
선택적으로, 도 6에 도시된 바와 같이, 장치(300)는, 다이얼 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 다이얼 이미지를 획득하는 멀티 스케일 특징 모듈(304)을 더 포함한다.
선택적으로, 도 7에 도시된 바와 같이, 이미지 획득 모듈(301)은, 계기판의 촬영 이미지를 획득한 경우, 촬영 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 촬영 이미지를 획득하는, 멀티 스케일 특징 유닛(3011); 멀티 스케일 특징을 구비한 촬영 이미지에 대해 특징 분류 및 회귀 처리를 진행하여, 촬영 이미지에서의 다이얼 영역을 확정하는 분류 회귀 유닛(3012); 및 상기 다이얼 영역의 이미지의 출력을 다이얼 이미지로 하는 이미지 출력 유닛(3013);을 포함한다.
선택적으로, 도 8에 도시된 바와 같이, 장치(300)는, 다이얼 이미지에 대해 사전 처리를 진행하는 사전 처리 모듈(305)을 더 포함하고, 사전 처리는, 다이얼 이미지를 미리 설정된 크기로 커팅하는 것; 및 다이얼 이미지에 대해 평균치 절감 처리하는 것;을 포함한다.
설명해야 할 것은, 텍스트 콘텐츠의 식별 장치(300)는 본 개시의 도 1에 도시된 방법 실시예에서 전자 기기가 구현한 각 프로세스를 실현할 수 있고, 따라서 동일한 유익 효과도 달성할 수 있으므로, 여기서 더 이상 상세하게 기술하지 않기로 한다.
본 개시의 실시예에 따라, 본 개시는 전자 기기 및 판독 가능 저장 매체를 더 제공한다.
도 9에 도시된 바와 같이, 도 9는 본 개시의 실시예에 따른 텍스트 콘텐츠의 식별 방법의 전자 기기의 블록도이다. 전자 기기는 예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 보조기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자 기기는 예컨대, 개인 디지털 프로세서, 셀룰러 전화, 스마트폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 가리킬 수도 있다. 본 명세서에서 예시된 어셈블리, 이들의 연결과 관계 및 이들의 기능들은 단지 예시적일 뿐, 본 명세서에서 설명 및/또는 청구한 본 개시의 구현을 제한하려는 의도가 아니다.
도 9에 도시된 바와 같이, 해당 전자 기기는, 하나 또는 복수의 프로세서(901), 메모리(902) 및 각 어셈블리를 연결하기 위한 인터페이스를 포함하고, 상기 인터페이스는 고속 인터페이스 및 저속 인터페이스를 포함한다. 각 어셈블리는 부동한 버스를 이용하여 서로 연결되며, 공통 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 수행되는 명령을 처리할 수 있고, 명령은 메모리 내 또는 메모리 상에 저장되어 외부 입력/출력 장치(예컨대, 인터페이스에 연결된 디스플레이 기기)상에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 다른 실시예에서, 필요할 경우, 각 프로세서 및/또는 복수의 버스를 복수의 메모리 및 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 복수의 전자 기기를 연결할 수 있으며, 각 기기는 부분적으로 필요한 운영(예컨대, 서버 어레이, 블레이드 서버 그룹, 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 9에서는 하나의 프로세서(901)로 예를 든다.
메모리(902)는 본 개시에서 제공하는 비 일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 메모리는 적어도 하나의 프로세서에 의해 수행될 수 있는 명령을 저장하므로, 적어도 하나의 프로세서는 본 개시에서 제공되는 텍스트 콘텐츠의 식별 방법을 수행한다. 본 개시의 비 일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 해당 컴퓨터 명령은 컴퓨터로 하여금 본 개시에서 제공하는 텍스트 콘텐츠의 식별 방법을 수행하도록 한다.
메모리(902)는 비 일시적 컴퓨터 판독 가능 저장 매체로써, 본 개시의 실시예에서의 텍스트 콘텐츠의 식별 방법에 대응되는 프로그램 명령/모듈(예컨대, 도 3에 도시된 이미지 획득 모듈(301), 검측 모듈(302) 및 식별 모듈(303))과 같은 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 수행 가능 프로그램 및 모듈을 저장할 수 있다. 프로세서(901)는 메모리(902)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 수행함으로써, 서버의 다양한 기능적 애플리케이션 및 데이터 처리를 진행하며, 즉 상기 방법 실시예에서의 텍스트 콘텐츠의 식별 방법을 구현한다.
메모리(902)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있으며, 데이터 저장 영역은, 텍스트 콘텐츠의 식별에 따른 전자 기기를 사용하여 생성된 테이터 등을 저장할 수 있다. 또한, 메모리(902)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 예컨대, 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비 일시적 고체상태 저장 장치와 같은 비 일시적 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(902)는 선택적으로 프로세서(901)에 비해 상대적으로 원격 설정한 메모리를 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 텍스트 콘텐츠의 식별에 따른 전자 기기에 연결될 수 있다. 네트워크의 예시로는 인터넷, 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 한정되지 않는다.
텍스트 콘텐츠의 식별 방법의 전자 기기는, 입력 장치(903) 및 출력 장치(904)를 더 포함할 수 있다. 프로세서(901), 메모리(902), 입력 장치(903) 및 출력 장치(904)는 버스 또는 기타 방식으로 연결될 수 있으며, 도 9에서는 버스에 의해 연결된 것을 예로 한다.
입력 장치(903)는, 입력된 디지털 또는 문자 정보를 수신하고, 텍스트 콘텐츠의 식별에 따른 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호, 예컨대, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 복수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치를 생성할 수 있다. 출력 장치(904)는 디스플레이 기기, 보조 조명 장치(예컨대, LED), 촉각 피드백 장치 (예컨대, 진동 모터) 등을 포함할 수 있다. 해당 디스플레이 기기는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 제한되지 않는다. 일부 실시 예에서, 디스플레이 기기는 터치 스크린일 수 있다.
여기서 기술된 시스템 및 기술의 다양한 실시방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC (주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이러한 다양한 실시방식은, 하나 또는 복수의 컴퓨터 프로그램에서 실시되고, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함한 프로그래밍 가능 시스템에서 수행 및/또는 해석될 수 있으며, 해당 프로그래밍 가능 프로세서는 전용 또는 범용 프로그래밍 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 해당 저장 시스템, 해당 적어도 하나의 입력 장치 및 해당 적어도 하나의 출력 장치로 전송할 수 있는 것을 포함할 수 있다.
이러한 컴퓨팅 프로그램 (또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드라고도 칭함)은 프로그래밍 가능 프로세서의 머신 명령을 포함할 수 있고, 하이 레벨 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/머신 언어를 이용하여 이러한 컴퓨팅 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 "머신 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 머신 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예컨대, 자기 디스크, 광 디스크, 메모리, 프로그래밍 가능 논리 장치 (PLD))를 가리키고, 머신 판독 가능 신호로써의 머신 명령을 수신하는 머신 판독 가능 매체를 포함한다. 용어 "머신 판독 가능 신호"는 머신 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 신호를 가리킨다.
사용자와의 상호 작용을 제공하기 위해, 여기에 설명 된 시스템 및 기술은 컴퓨터에서 실시될 수 있다. 해당 컴퓨터는, 사용자에게 정보를 표시하는 디스플레이 장치 (예컨대, CRT (음극선 파이프) 또는 LCD (액정 디스플레이) 모니터); 및 키보드 와 포인팅 장치 (예컨대, 마우스 또는 트랙볼) 를 구비한다. 사용자는 해당 키보드 및 해당 포인팅 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 다른 타입의 장치는 사용자와의 상호 작용을 제공할 수도 있다. 예컨대, 사용자에게 제공되는 피드백은 임의 형태의 센서 피드백 (예컨대, 시각적 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있으며; 또한 임의 형식(음향 입력, 음성 입력, 촉각 입력을 포함)으로 사용자로부터의 입력을 수신할 수도 있다.
여기서 기술된 시스템 및 기술은, 백엔드 어셈블리를 포함한 컴퓨팅 시스템(예컨대, 데이터 서버), 또는 미들웨어 어셈블리를 포함한 컴퓨팅 시스템(예컨대, 애플리케이션 서버), 또는 프런트 엔드 어셈블리를 포함한 컴퓨팅 시스템(예컨대, 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비한 사용자 컴퓨터이며, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 웹 브라우저를 통해 여기서 기술된 시스템 및 기술의 실시 방식과 상호 작용할 수 있음), 또는 이러한 백엔드 어셈블리, 미들웨어 어셈블리, 또는 프런트 엔드 어셈블리들의 임의의 조합인 컴퓨팅 시스템에서 실시될 수 있다. 시스템의 어셈블리는 임의의 형태 또는 매체인 디지털 데이터 통신(예컨대, 통신 네트워크)에 의해 서로 연결될 수 있다. 통신 네트워크의 예시로는, 근거리 통신망(LAN), 광역 네트워크(WAN) 및 인터넷이 있다.
컴퓨터 시스템에는 클라이언트 및 서버가 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 또한 일반적으로 통신 네트워크를 통해 상호 작용한다. 상응한 컴퓨터에서 수행되며 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 클라이언트와 서버 간의 관계가 생성된다.
본 개시의 실시예의 기술적 방안에 따라, 다이얼 이미지를 획득하여; 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하며; 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별한다. 이러한 방식으로, 전자 기기는 다이얼 이미지의 텍스트 콘텐츠를 정확하고 빠르게 식별할 수 있어, 계기판의 계량 콘텐츠의 식별 정확도와 효율성이 향상된다.
위에서 예시된 다양한 형태의 공정에 의해, 단계들은 재정렬, 추가 또는 삭제될수 있음을 이해해야 한다. 예컨대, 본 개시에서 기재된 각 단계들은 병렬, 순차적 또는 다른 순서로 수행될 수 있으며, 본 개시에서 기술된 기술방안이 기대하는 결과를 달성할 수 있다면, 본 명세서는 이에 대해 한정하지 않는다.
구체적인 실시예는, 본 개시의 보호 범위에 대한 제한을 구성하지 않는다. 당업자는 설계 요구 및 기타 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 개시의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개진은 모두 본 개시의 보호 범위 내에 포함된다.

Claims (15)

  1. 전자 기기에 적용되는 텍스트 콘텐츠의 식별 방법에 있어서, 상기 방법은,
    다이얼 이미지를 획득하는 단계;
    상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 단계;및
    상기 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별하는 단계;
    를 포함하는 텍스트 콘텐츠의 식별 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별하는 단계는,
    타겟 텍스트 중심선 및 제1 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 타겟 행 텍스트와 대응되는 적어도 하나의 샘플링 포인트의 텍스트 특징을 획득하는 단계 - 상기 타겟 행 텍스트는 상기 타겟 텍스트 중심선에 대응되는 바운딩 프레임내에 위치하고, 상기 타겟 텍스트 중심선은 상기 적어도 하나의 텍스트 중심선 중의 임의의 하나의 텍스트 중심선임 -;
    상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하여, 타겟 텍스트 특징의 시퀀스를 획득하는 단계;
    미리 설정된 손실 함수를 통하여, 상기 타겟 텍스트 특징의 시퀀스에 대해 감독 학습을 진행하는 단계; 및
    감독 학습 후의 상기 타겟 텍스트 특징의 시퀀스에 대해 디코딩을 진행하여, 상기 타겟 행 텍스트의 텍스트 콘텐츠를 획득하는 단계;
    를 포함하는 텍스트 콘텐츠의 식별 방법.
  3. 제2항에 있어서,
    상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하는 단계 전에, 상기 방법은:
    상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 배경 억제 처리를 진행하는 단계;를 더 포함하고,
    상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하는 단계는,
    배경 억제 처리 후의 상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하는 단계;
    를 포함하는 텍스트 콘텐츠의 식별 방법.
  4. 제1항에 있어서,
    상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 단계 전에, 상기 방법은:
    상기 다이얼 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 다이얼 이미지를 획득하는 단계;
    를 더 포함하는 텍스트 콘텐츠의 식별 방법.
  5. 제1항에 있어서,
    상기 다이얼 이미지를 획득하는 단계는,
    계기판의 촬영 이미지를 수신한 경우, 상기 촬영 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 촬영 이미지를 획득하는 단계;
    멀티 스케일 특징을 구비한 촬영 이미지에 대해 특징 분류 및 회귀 처리를 진행하여, 상기 촬영 이미지 중의 다이얼 영역을 확정하는 단계; 및
    상기 다이얼 영역의 이미지의 출력을 상기 다이얼 이미지로 하는 단계;
    를 포함하는 텍스트 콘텐츠의 식별 방법.
  6. 제1항에 있어서,
    상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 단계 전에, 상기 방법은:
    상기 다이얼 이미지에 대해 사전 처리를 진행하는 단계; 를 더 포함하고,
    상기 사전 처리는,
    상기 다이얼 이미지를 미리 설정된 크기로 커팅하는 것; 및
    상기 다이얼 이미지에 대해 평균치 절감 처리를 진행하는 것;
    을 포함하는 텍스트 콘텐츠의 식별 방법.
  7. 전자 기기에 적용되는 텍스트 콘텐츠 식별 장치에 있어서, 상기 장치는,
    다이얼 이미지를 획득하는 이미지 획득 모듈;
    상기 다이얼 이미지에서의 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임을 검측하는 검측 모듈; 및
    상기 적어도 하나의 텍스트 중심선 및 각 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 각 행 텍스트의 텍스트 콘텐츠를 식별하는 식별 모듈;
    을 포함하는 텍스트 콘텐츠 식별 장치.
  8. 제7항에 있어서,
    상기 식별 모듈은,
    타겟 텍스트 중심선 및 제1 텍스트 중심선에 대응되는 바운딩 프레임에 근거하여, 상기 다이얼 이미지 중의 타겟 행 텍스트와 대응되는 적어도 하나의 샘플링 포인트의 텍스트 특징을 획득하는 특징 획득 유닛 - 상기 타겟 행 텍스트는 상기 타겟 텍스트 중심선에 대응되는 바운딩 프레임내에 위치하고, 상기 타겟 텍스트 중심선은 상기 적어도 하나의 텍스트 중심선 중의 임의의 하나의 텍스트 중심선임 -;
    상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하여, 타겟 텍스트 특징의 시퀀스를 획득하는 시퀀스화 유닛;
    미리 설정된 손실 함수를 통하여 타겟 텍스트 특징의 시퀀스에 대해 감독 학습을 진행하는 감독 학습 유닛; 및
    감독 학습 후의 상기 타겟 텍스트 특징의 시퀀스에 대해 디코딩을 진행하여, 상기 타겟 행 텍스트의 텍스트 콘텐츠를 획득하는 디코딩 유닛;
    을 포함하는 텍스트 콘텐츠 식별 장치.
  9. 제8항에 있어서,
    상기 식별 모듈은,
    상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 배경 억제 처리를 진행하는 배경 억제 유닛을 더 포함하고,
    상기 시퀀스화 유닛은 구체적으로,
    배경 억제 처리 후의 상기 적어도 하나의 샘플링 포인트의 텍스트 특징에 대해 시퀀스화 처리를 진행하기 위한 것인, 텍스트 콘텐츠 식별 장치.
  10. 제7항에 있어서,
    상기 장치는,
    상기 다이얼 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 다이얼 이미지를 획득하는 멀티 스케일 특징 모듈;
    을 더 포함하는 텍스트 콘텐츠 식별 장치.
  11. 제7항에 있어서,
    상기 이미지 획득 모듈은,
    계기판의 촬영 이미지를 획득한 경우, 상기 촬영 이미지의 이미지 특징에 대해 멀티 스케일 특징 처리를 진행하여, 멀티 스케일 특징을 구비한 촬영 이미지를 획득하는 멀티 스케일 특징 유닛;
    멀티 스케일 특징을 구비한 촬영 이미지에 대해 특징 분류 및 회귀 처리를 진행하여, 상기 촬영 이미지에서의 다이얼 영역을 확정하는 분류 회귀 유닛; 및
    상기 다이얼 영역의 이미지의 출력을 상기 다이얼 이미지로 하는 이미지 출력 유닛;
    을 포함하는 텍스트 콘텐츠 식별 장치.
  12. 제7항에 있어서,
    상기 장치는,
    상기 다이얼 이미지에 대해 사전 처리를 진행하는 사전 처리 모듈을 더 포함하고,
    상기 사전 처리는,
    상기 다이얼 이미지를 미리 설정된 크기로 커팅하는 것; 및
    상기 다이얼 이미지에 대해 평균치 절감 처리하는 것;
    를 포함하는 텍스트 콘텐츠 식별 장치.
  13. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 연결된 메모리;를 포함하고,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행되는 명령을 저장하며, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되여, 상기 적어도 하나의 프로세서로 하여금 청구항 제1항 내지 제6항 중 임의 어느 한 항에 따른 상기 방법을 실시하도록 하는 것인, 전자 기기.
  14. 컴퓨터 명령을 저장하는 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 청구항 제1항 내지 제6항 중 임의의 어느 한 항에 따른 상기 방법을 실시하도록 하는 것인, 비 일시적 컴퓨터 판독 가능 저장 매체.
  15. 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 적어도 하나의 프로세서에 의해 실행될 경우, 청구항 제1항 내지 제6항 중 임의의 어느 한 항에 따른 상기 방법을 구현하는 것인,
    컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램.
KR1020210033503A 2020-04-28 2021-03-15 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기 KR20210036319A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010349150.9A CN111539438B (zh) 2020-04-28 2020-04-28 文本内容的识别方法、装置及电子设备
CN202010349150.9 2020-04-28

Publications (1)

Publication Number Publication Date
KR20210036319A true KR20210036319A (ko) 2021-04-02

Family

ID=71980255

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210033503A KR20210036319A (ko) 2020-04-28 2021-03-15 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기

Country Status (5)

Country Link
US (1) US11810384B2 (ko)
EP (1) EP3905112A1 (ko)
JP (1) JP7124153B2 (ko)
KR (1) KR20210036319A (ko)
CN (1) CN111539438B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708580A (zh) * 2022-04-08 2022-07-05 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860479B (zh) * 2020-06-16 2024-03-26 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备及存储介质
CN112686843B (zh) * 2020-12-21 2023-09-15 福建新大陆软件工程有限公司 一种基于神经网络的木板缺陷检测方法及系统
CN114283411B (zh) * 2021-12-20 2022-11-15 北京百度网讯科技有限公司 文本识别方法、文本识别模型的训练方法及装置
CN114882485B (zh) * 2022-04-25 2024-05-24 华南理工大学 一种面向细长文本的自然场景文字检测方法、系统及介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US7400768B1 (en) * 2001-08-24 2008-07-15 Cardiff Software, Inc. Enhanced optical recognition of digitized images through selective bit insertion
US7644053B2 (en) * 2004-03-03 2010-01-05 The Boeing Company System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support
US7454063B1 (en) * 2005-09-22 2008-11-18 The United States Of America As Represented By The Director National Security Agency Method of optical character recognition using feature recognition and baseline estimation
US8271902B1 (en) * 2006-07-20 2012-09-18 Adobe Systems Incorporated Communication of emotions with data
US9135277B2 (en) * 2009-08-07 2015-09-15 Google Inc. Architecture for responding to a visual query
US8670597B2 (en) * 2009-08-07 2014-03-11 Google Inc. Facial recognition with social network aiding
US9183224B2 (en) * 2009-12-02 2015-11-10 Google Inc. Identifying matching canonical documents in response to a visual query
US8977639B2 (en) * 2009-12-02 2015-03-10 Google Inc. Actionable search results for visual queries
US20110255788A1 (en) * 2010-01-15 2011-10-20 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents using external data
JP5768451B2 (ja) * 2011-04-07 2015-08-26 株式会社リコー コンテンツ処理装置、コンテンツ処理方法及びコンテンツ処理装置の制御プログラム
WO2013123171A1 (en) 2012-02-15 2013-08-22 Wayans Damon K Method and apparatus for implementing video game that includes social darts
CN104580110A (zh) 2013-10-24 2015-04-29 西安群丰电子信息科技有限公司 基于gprs的车载语音数据实时传输方法
JP6231453B2 (ja) * 2014-08-18 2017-11-15 株式会社日立製作所 通信制御装置
US9646202B2 (en) 2015-01-16 2017-05-09 Sony Corporation Image processing system for cluttered scenes and method of operation thereof
CN105574526A (zh) * 2015-12-10 2016-05-11 广东小天才科技有限公司 一种实现逐行扫描的方法及系统
CN106485246B (zh) * 2016-09-19 2019-07-16 北京小米移动软件有限公司 字符识别方法及装置
CN107967471A (zh) 2017-09-20 2018-04-27 北京工业大学 一种基于机器视觉的表具自动识别方法
CN109993040B (zh) 2018-01-03 2021-07-30 北京世纪好未来教育科技有限公司 文本识别方法及装置
CN108805131B (zh) * 2018-05-22 2021-08-10 北京旷视科技有限公司 文本行检测方法、装置及系统
CN110033000B (zh) * 2019-03-21 2021-05-18 华中科技大学 一种票据图像的文本检测与识别方法
CN110032990A (zh) * 2019-04-23 2019-07-19 杭州智趣智能信息技术有限公司 一种发票文本识别方法、系统及相关组件
CN110197227B (zh) 2019-05-30 2023-10-27 成都中科艾瑞科技有限公司 一种多模型融合的仪表读数智能识别方法
CN110458011A (zh) 2019-07-05 2019-11-15 北京百度网讯科技有限公司 端到端的文字识别方法及装置、计算机设备及可读介质
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110598690B (zh) * 2019-08-01 2023-04-28 达而观信息科技(上海)有限公司 一种端到端光学字符检测识别方法与系统
CN110458107B (zh) * 2019-08-13 2023-06-16 北京百度网讯科技有限公司 用于图像识别的方法和装置
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110929665B (zh) 2019-11-29 2022-08-26 河海大学 一种自然场景曲线文本检测方法
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端
CN111027456B (zh) 2019-12-06 2023-06-20 四川杰森机电有限公司 基于图像识别的机械水表读数识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708580A (zh) * 2022-04-08 2022-07-05 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序
CN114708580B (zh) * 2022-04-08 2024-04-16 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序

Also Published As

Publication number Publication date
US11810384B2 (en) 2023-11-07
CN111539438B (zh) 2024-01-12
EP3905112A1 (en) 2021-11-03
US20210334602A1 (en) 2021-10-28
CN111539438A (zh) 2020-08-14
JP2021103545A (ja) 2021-07-15
JP7124153B2 (ja) 2022-08-23

Similar Documents

Publication Publication Date Title
US11694461B2 (en) Optical character recognition method and apparatus, electronic device and storage medium
KR20210036319A (ko) 텍스트 콘텐츠의 식별 방법, 장치 및 전자 기기
US11321593B2 (en) Method and apparatus for detecting object, method and apparatus for training neural network, and electronic device
US11710215B2 (en) Face super-resolution realization method and apparatus, electronic device and storage medium
CN113657390A (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
US20230008696A1 (en) Method for incrementing sample image
EP3852007A2 (en) Method, apparatus, electronic device, readable storage medium and program for classifying video
JP2021119528A (ja) 三次元物体検出方法、三次元物体検出装置、電子機器、記憶媒体及びコンピュータプログラム
CN114187459A (zh) 目标检测模型的训练方法、装置、电子设备以及存储介质
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
JP2021119457A (ja) 背景なし画像の生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11830242B2 (en) Method for generating a license plate defacement classification model, license plate defacement classification method, electronic device and storage medium
CN111191619A (zh) 车道线虚线段的检测方法、装置、设备和可读存储介质
CN112508027B (zh) 用于实例分割的头部模型、实例分割模型、图像分割方法及装置
CN113901998A (zh) 模型的训练方法、装置、设备、存储介质以及检测方法
CN113570608A (zh) 目标分割的方法、装置及电子设备
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN112861940A (zh) 双目视差估计方法、模型训练方法以及相关设备
CN112558810A (zh) 检测指尖位置的方法、装置、设备和存储介质
Wu et al. Industrial equipment detection algorithm under complex working conditions based on ROMS R-CNN
JP7269979B2 (ja) 歩行者を検出するための方法及び装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
CN116824609B (zh) 文档版式检测方法、装置和电子设备
CN115511779B (zh) 图像检测方法、装置、电子设备和存储介质
CN113343979B (zh) 用于训练模型的方法、装置、设备、介质和程序产品
CN115861757A (zh) 多模态图像特征融合方法、装置以及设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal