KR20170092476A - 이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체 - Google Patents

이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체 Download PDF

Info

Publication number
KR20170092476A
KR20170092476A KR1020170015453A KR20170015453A KR20170092476A KR 20170092476 A KR20170092476 A KR 20170092476A KR 1020170015453 A KR1020170015453 A KR 1020170015453A KR 20170015453 A KR20170015453 A KR 20170015453A KR 20170092476 A KR20170092476 A KR 20170092476A
Authority
KR
South Korea
Prior art keywords
text
strong
candidate
weak
classify
Prior art date
Application number
KR1020170015453A
Other languages
English (en)
Other versions
KR101782589B1 (ko
Inventor
조호진
Original Assignee
주식회사 스트라드비젼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스트라드비젼 filed Critical 주식회사 스트라드비젼
Publication of KR20170092476A publication Critical patent/KR20170092476A/ko
Application granted granted Critical
Publication of KR101782589B1 publication Critical patent/KR101782589B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • G06K9/00456
    • G06K9/6202
    • G06K9/6218
    • G06K9/6282
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 태양에 따르면, 이미지에 포함된 텍스트를 검출하는 방법에 있어서, (a) 입력 이미지가 획득되면, 장치가, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하는 단계, (b) 상기 장치가, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하는 단계, 및 (c) 상기 장치가, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 단계를 포함하는 방법이 제공된다.

Description

이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체{METHOD FOR DETECTING TEXTS INCLUDED IN AN IMAGE AND APPARATUS USING THE SAME}
본 발명은, 이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것으로, 좀더 상세하게는, 입력 이미지가 획득되면, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하는 프로세스, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하는 프로세스 및 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 프로세스를 포함하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것이다.
이미지 내의 텍스트는 유의미한 정보를 제공하는 경우가 많으므로 장면 텍스트(Scene Text)를 검출하고 인식하는 것은 이미지 및 비디오 검색(image and video retrieval), 다국어 번역기, automotive assistance와 같은 다양한 컴퓨터 비전 애플리케이션에서 중요하게 여겨져 왔다.
장면 텍스트 검출 알고리즘(Scene text detection algorithm)은 이미지 상에서 텍스트(캐릭터)를 검출하기 위한 알고리즘으로, 텍스트 후보 추출 방법에 따라 크게 sliding window 방식과 connected component analysis 방식으로 나뉠 수 있다.
sliding window 방식은 window를 이미지의 모든 위치에서 복수의 스케일로 시프팅시켜 장면 이미지의 텍스트를 검출하는 기술이다. 이 기술은 입력 이미지에 대해 철저한 검색이 이루어지므로 얼마나 많은 텍스트 영역이 검출되는지를 나타내는 recall rate이 높은 장점이 있다. 반면, 철저한 window 스캐닝으로 인해 많은 계산량을 피할 수 없고, 많은 수의 텍스트 후보가 많은 양의 false positive를 초래할 수 있다. 따라서, real-time 애플리케이션에는 부적합하다. sliding window 방식은 X. Chen and A. L. Yuille. Detecting and reading text in natural scenes. In Proc. CVPR 2004, pages 366-373, 2004 등에서 소개된 바 있다.
이처럼 sliding window 방식이 많은 계산량을 요하므로 근래에는 connected component analysis 방식이 많이 사용되는 추세이다. connected component analysis 방식은 입력 이미지로부터 유사한 텍스트 특성을 공유하는 픽셀의 집합인 텍스트 후보를 추출하고 non-text 후보를 억제(suppression)하기 위해 텍스트 후보들을 정제하는 작업을 수행한다. stroke width transform(SWT)와 maximally stable extremal region(MSER)은 connected component analysis의 대표적인 기술이다. 이 방법들은 장면 텍스트 검출에서 최첨단의 성능을 제공한다. connected component analysis 방식은 B. Epshtein, E. Ofek, and Y.Wexler. Detecting text in natural scenes with stroke width transform. In Proc. CVPR 2010, pages 2963-2970, 2010 등에서 소개된 바 있다.
그러나, connected component analysis 방식에서 텍스트 후보를 정제하는데 사용되는 일반적인 constraints는 여러 true text를 검출하는데 제한적으로 평가되며 결과적으로 낮은 recall rate을 나타내는 한계가 있다.
따라서, 이미지에서 텍스트 검출시 최적의 성능을 내면서도 높은 recall rate을 가질 수 있는 텍스트 검출 기술이 요청되고 있다.
본 발명은 상술한 문제점들을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은 최적의 성능을 내면서도 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 것을 다른 목적으로 한다.
또한, 본 발명은 multiple threshold를 이용하여 텍스트 후보를 strong text, weak text, non-text로 분류함으로써 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 것을 또 다른 목적으로 한다.
또한, 본 발명은 텍스트 후보가 strong text와 weak text로 분류된 후, strong text와 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 참조로 하여 weak text를 strong text로 편입시킴으로써 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 것을 또 다른 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 이미지에 포함된 텍스트를 검출하는 방법에 있어서, (a) 입력 이미지가 획득되면, 장치가, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하는 단계, (b) 상기 장치가, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하는 단계, 및 (c) 상기 장치가, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 이미지에 포함된 텍스트를 검출하는 장치에 있어서, 이미지를 획득하는 통신부, 및 상기 이미지가 획득되면, (i) 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고, (ii) 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하며, (iii) 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 프로세서를 포함하는 장치가 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 장치 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 다음과 같은 효과가 있다.
본 발명은 최적의 성능을 내면서도 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 효과가 있다.
또한, 본 발명은 multiple threshold를 이용하여 텍스트 후보를 strong text, weak text, non-text로 분류함으로써 텍스트 검출시 높은 recall rate을 달성할 수 있는 효과가 있다.
또한, 본 발명은 텍스트 후보가 strong text와 weak text로 분류된 후, strong text와 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 등과 같은 관련 정보를 참조로 하여 weak text를 strong text로 편입시킴으로써 텍스트 검출시 높은 recall rate을 달성할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 장치가 이미지에 포함된 텍스트를 검출하는 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 ER 트리의 예를 도시한 도면이다.
도 4는 MLBP 변환의 예를 도시한 도면이다.
도 5는 본 발명에 따른 텍스트 검출 기법을 사용하여 예시 이미지에서 텍스트를 검출하는 경우 각 과정에서 중간 결과를 나타내는 도면이다.
도 6 내지 8은 다른 텍스트 검출 기술과 본 발명의 성능을 비교 실험한 결과를 나타내는 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 발명은 다음의 기준(criteria)이 고려된 텍스트 검출 기술을 제안한다. 본 발명자는 하기 기준을 만족하는 본 발명에 따른 검출기를 Canny Text Detector라고 명명한다. 각 기준을 만족하기 위한 본 발명의 구성에 대해서는 해당 구성에 대한 설명에서 자세히 언급될 것이다.
1. Recall : 가능한 많은 텍스트 영역이 검출되어야 한다.
2. Precision : 검출 결과는 non-text 영역을 포함하지 않아야 한다.
3. Uniqueness : 검출된 텍스트는 한번만 표시(mark)되어야 한다.
4. Compactness : 검출된 영역(바운딩 박스)은 extra margin을 최소화하도록 텍스트 영역을 포함해야 한다.
이하에서는 상기 기준을 만족하는 본 발명의 다양한 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치 및 방법에 대해서 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치의 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 장치가 이미지에 포함된 텍스트를 검출하는 과정을 도시한 흐름도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치(100)는 통신부(110), 프로세서(120) 및 저장부(130)를 포함한다.
통신부(110)는 외부 장치와 데이터를 송수신하거나 내부 구성 요소 간에 데이터를 송수신하는 구성이다. 특히, 통신부(110)는 텍스트 검출을 위한 입력 이미지를 획득할 수 있다(S210).
프로세서(120)는 각종 데이터의 연산을 수행하는 구성이다. 우선, 프로세서(120)는, 상기 입력 이미지가 획득되면, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원할 수 있다(S220).
이때, 프로세서(120)는, 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 클 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원할 수 있다. 이는 다음의 수학식으로 표현될 수 있다.
<수학식 1>
Figure pat00001
여기서, xy는 single channel 이미지 I에 대한 픽셀 인덱스이고, t는 텍스트 후보 영역을 추출하기 위해 사용되는 threshold 값이고, B(R t )는 R t 의 경계 영역 픽셀의 집합이다. 물론, 반대의 경우로서, 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 작을 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원할 수도 있다.
한편, 다음으로, ERs(Extremal Regions)를 이용하여 ER 트리를 구성할 수도 있다. 즉, 프로세서(120)는, 상기 소정의 영역의 픽셀 intensity 레벨을 변경하면서 상기 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원할 수 있고, 상기 검출된 적어도 하나의 텍스트 후보에서, (i) 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 큰 하위 레벨 텍스트 후보와 (ii) 상기 하위 레벨 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은 상위 레벨 텍스트 후보 중 상기 소정의 영역의 픽셀 intensity 레벨이 가장 큰 텍스트 후보를, 각각 자식 노드와 부모 노드에 할당하여 트리를 구성하거나 구성하도록 지원할 수 있다.
도 3은 본 발명의 일 실시예에 따른 ER 트리의 예를 도시한 도면이다.
도 3에 도시된 예에서, intensity 레벨이 136인 텍스트 후보와, 상기 intensity 레벨이 136인 텍스트 후보의 영역을 포함하고 intensity 레벨이 133인 텍스트 후보가 각각 ER트리의 자식 노드와 부모 노드에 할당되어 있음을 알 수 있다.
다음으로, 프로세서(120)는, Multiple Threshold Classification을 수행하거나 수행하도록 지원할 수 있다(S240). 즉, 프로세서(120)는, 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원할 수 있다. 가령, 프로세서(120)는, AdaBoost 알고리즘으로 트레이닝된 분류기를 이용하여 상기 검출된 텍스트 후보를 분류하거나 분류하도록 지원할 수 있다.
여기서, 상기 검출된 텍스트 후보가 포함되는 영역은, extra margin을 최소화하면서 상기 검출된 텍스트 후보를 포함하는 바운딩 박스(bounding box) 영역일 수 있다.
또한, strong text는 검출된 텍스트 후보가 실제로 텍스트일 가능성이 상대적으로 높은 텍스트 후보를 의미한다. 반면, weak text는 검출된 텍스트 후보가 실제로 텍스트일 가능성이 strong text 보다는 상대적으로 낮은 텍스트 후보를 말하며, non-text는 검출된 텍스트 후보가 실제로 텍스트일 가능성이 매우 낮은 텍스트 후보를 말한다.
또한, 제1 임계값은 high threshold 값일 수 있고, 제2 임계값은 low threshold 값일 수 있다. 상이한 임계값은 상이한 정확성을 만족시킬 수 있는데, 예를 들어, 제1 임계값은 99%의 정확성을, 제2 임계값은 90%의 정확성을 만족시킬 수 있다. 이처럼 제2 임계값은 제1 임계값에 비해 낮은 정확성을 보일 수 있으나 상대적으로 높은 recall rate을 나타낼 수 있다.
또한, 프로세서(120)는, 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀의 피처값을 MLBP(Mean Local Binary Pattern)로 변환한 값을 참조로 하여 상기 분류 작업을 수행하거나 수행하도록 지원할 수 있다.
도 4는 MLBP 변환의 예를 도시한 도면이다.
도 4를 참조하면, 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀을 둘러싸는 8개의 이웃 픽셀(3X3 패치 내의 이웃 픽셀)의 평균값이 먼저 계산된다. 그리고, 중앙의 선택된 픽셀을 제외한 나머지 8개의 이웃 픽셀과 상기 계산된 평균값이 비교되어 특정 이웃 픽셀의 값이 평균값보다 크면 해당 이웃 픽셀에 1이 할당되고 작으면 0이 할당된다. 그리고, 좌측 상단의 이웃 픽셀부터 시계방향으로 새롭게 할당된 값이 읽혀져 8개의 비트로 이루어진 2진수로 인코딩된다. 도 4에 도시된 예에서 MLBP 값은 2진수 00110101(2)임을 알 수 있다. 그러나, 본 발명에서 사용될 수 있는 피처(feature)가 MLBP에 한정되는 것은 아니고, 다양한 다른 피처가 사용될 수 있다고 할 것이다.
한편, 텍스트 후보가 두 단계를 거쳐 두 개의 임계값과 비교되어 분류될 수도 있으나(이를 double threshold classification이라 하기로 한다.) 두 단계 이상을 거쳐 분류가 이루어질 수도 있다. 즉, 상기 제1 임계값과 상기 제2 임계값의 사이에 적어도 하나의 중간 임계값이 있을 수 있고, 이 경우, 프로세서(120)는, (ii-1) non-strong text로 분류된 텍스트 후보를 상기 중간 임계값과 비교하여 상기 strong text 또는 차순위 weak text로 분류하거나 분류하도록 지원하고, (ii-2) 상기 차순위 weak text를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원할 수 있다.
한편, 프로세서(120)는, Multiple Threshold Classification을 수행하기에 앞서 Non-Maximum Suppression을 수행하거나 수행하도록 지원할 수도 있다(S230).
즉, 검출된 텍스트 후보가 복수 개일 때, 프로세서(120)는, 상기 검출된 복수의 텍스트 후보가 포함되는 영역이 소정 비율 이상 서로 겹치는 텍스트 후보를 포함하는 적어도 하나의 텍스트 후보 세트를 식별하고, 식별된 각 텍스트 후보 세트에 대하여 소정의 조건을 만족하는 텍스트 후보를 선택하거나 선택하도록 지원할 수 있다. 이 경우, 프로세서(120)는, 상기 소정의 조건을 만족하는 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원할 수 있다.
상기와 같이 텍스트 후보가 포함되는 영역들이 상호 겹치는 경우는 MSERs(Maximally Stable Extremal Region)와 ERs에서 종종 나타난다. ER 트리의 경우 Uniqueness 기준을 보장하기 위해 반복되는 ER(노드)을 억제하고 최대 stability를 갖는 하나의 ER만을 선택할 수 있다.
ER 트리를 구성한 경우 Non-Maximum Suppression 과정을 좀더 구체적으로 설명하면, (a) 전술한 ER 트리에서 특정 노드에 대하여 상기 특정 노드에 대응되는 텍스트 후보가 포함되는 영역과, 상기 특정 노드에 대응되는 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은, 조상 노드에 대응되는 텍스트 후보가 포함되는 영역이 소정 비율 이상 겹치는 경우가 소정 회수 이상인 경우, (b) 프로세서(120)는, 자신의 특정 조상 노드 대비 텍스트 후보가 포함되는 영역의 변화량이 상대적으로 가장 작은 노드에 대응되는 텍스트 후보를 선택하거나 선택하도록 지원할 수 있다.
(a)의 판단은 하기의 수식이 사용될 수 있다.
<수학식 2>
Figure pat00002
여기서, R t -k 는 ER 트리에서 R t 의 부모 노드를 가리킨다. |R|은 R의 바운딩 박스 영역(텍스트 후보가 포함되는 영역)을 가리킨다.
예를 들어, O(R t -k , R t ) > 0.7인 경우가 5번 이상인 경우 (b)가 수행될 수 있다. (b)는 stability가 가장 큰 ER이 선택되는 것으로 표현될 수 있는데, stability는 다음의 수식으로 표현될 수 있다.
<수학식 3>
Figure pat00003
가령, 수학식 2에서 k=2로 설정될 수 있다. 이 경우, stability는 특정 노드와 특정 노드의 조부모 노드에 대해 고려될 수 있다.
참고로, stability가 동일한 ER이 두 개 이상인 경우, ER의 영역(바운딩 박스 영역)이 최소인 것이 선택될 수 있다. 이를 통해 Uniqueness와 Compactness 기준을 만족할 수 있다.
또한, R t 에서 겹쳐지는 횟수가 3보다 크고 R t 가 non-maximum constraints에 의해 제거되지 않으면 R t 는 텍스트 후보로 고려될 수 있다. 그러나, 텍스트 후보가 지나치게 크거나 작은 aspect ratio를 가지는 경우 그러한 텍스트 후보는 제거될 수 있다.
상기의 경우, 프로세서(120)는 상기 선택된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원할 수 있다.
다시 도 2를 참조하면, 프로세서(120)는, Hysteresis를 고려하여 text tracking을 수행하거나 수행하도록 지원할 수 있다(S250). 즉, 프로세서(120)는, 상기와 같이 분류된 strong text와 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단할 수 있다. 좀더 구체적으로, 프로세서(120)는, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 또는 non-text로 분류하거나 분류하도록 지원할 수 있다.
앞서 살펴본 바와 같이 strong text로 분류된 텍스트 후보는 실제로 text일 가능성이 높다. 그러나, weak text로 분류된 텍스트 후보의 경우도 실제로 텍스트일 가능성이 있다. 따라서, 본 발명은 weak text의 경우 strong text와 특징이 유사한 경우 strong text로 편입시킨다. 즉, strong text의 이웃에서 weak text로 분류된 텍스트 후보를 찾고, 이러한 텍스트 후보가 strong text와 유사한 특징을 가지는 경우 weak text를 strong text로 변환한다. 이를 통해 높은 recall rate을 달성할 수 있다.
strong text와 weak text가 유사한 특징이 있는지 판단하기 위해 고려되는 strong text와 weak text의 관련 정보는 상기 strong text와 상기 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 포함할 수 있다.
다음으로, 프로세서(120)는, 상기 제1 임계값과 비교하여 분류된 strong text 및 상기 weak text로부터 편입된 strong text를 그룹핑하거나 그룹핑하도록 지원할 수 있다(S260).
또한, 제1 strong text 및 이에 이웃한 제1 weak text로부터 편입된 제2 strong text가 그룹핑되고 상기 제2 strong text 및 이에 이웃한 제2 weak text의 관련 정보를 참조로 하여 상기 제2 weak text가 제3 strong text로 분류되면, 프로세서(120)는, 상기 제3 strong text를 상기 제1 strong text 및 상기 제2 strong text와 함께 그룹핑하거나 그룹핑하도록 지원할 수 있다. 이처럼 본 발명은 텍스트 그룹핑시 출발점이 된 strong text로부터 하나의 텍스트씩 확장해가면서 그룹핑을 수행할 수 있게 된다.
또한, 출력으로 compact한 바운딩 박스를 제공하기 위해 minimum-area encasing rectangle이 계산될 수 있다. 캐릭터 픽셀의 2D 좌표를 사용하여 2D 이미지 공간에서 그룹핑된 텍스트를 에워싸는 가장 작은 직사각형이 계산될 수 있다.
도 5는 본 발명에 따른 텍스트 검출 기법을 사용하여 예시 이미지에서 텍스트를 검출하는 경우 각 과정에서의 중간 결과를 나타내는 도면이다.
도 5의 (a)의 입력 이미지가 획득된 경우, (b)는 non-maximum suppression이 수행되어 선택된 ER을 나타낸다. (c)는 텍스트 후보가 high threshold를 이용하여 분류된 결과를 나타내는데, 비교적 적은 수의 strong text가 분류된 것을 알 수 있다. (d)는 low threshold를 이용하여 추가 분류가 이루어져 많은 텍스트 후보가 weak text로 분류된 결과를 나타낸다. (e)는 텍스트 트래킹 결과를 나타낸다. 그 결과 많은 weak text가 strong text로 편입된다. (f)는 최종적으로 텍스트 그룹핑이 이루어진 결과를 나타낸다.
한편, 프로세서(120)는 전술한 통신부(110)와 후술할 저장부(130) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 즉, 프로세서(120)는 입력 데이터에서 텍스트를 검출하는 장치(100)의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 통신부(110), 저장부(130)에서 각각 고유 기능을 수행하도록 제어한다.
프로세서(120)는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 어플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
저장부(130)는 각종 데이터를 저장하는 구성이다. 특히, 저장부(130)는 텍스트 검출의 각 단계에서 산출되는 중간 결과 데이터를 저장할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 어플리케이션의 소프트웨어를 저장할 수 있다.
이하에서는 전술한 텍스트 검출 방법 및 장치를 구현하여 본 발명자가 실험한 결과를 간략히 설명한다.
도 6 내지 8은 다른 텍스트 검출 기술과 본 발명의 성능을 비교 실험한 결과를 나타내는 도면이다.
도 6은 ICDAR 2011 데이터 세트에 대한 캐릭터 레벨의 recall에 대해서 M.-C. Sung, B. Jun, H. Cho, and D. Kim. Scene text detection with robust character candidate extraction method. In Proc. ICDAR 2015, pages 426-430, 2015에서 제안된 최신 텍스트 후보 검출 방법과 본 발명을 비교한 결과를 나타내는 테이블이다.
도 6에 표시된 것처러 Sung et al.과 비교하여 본 발명은 ER 트리에서 non-maximum suppression을 이용하여 텍스트 후보의 숫자를 줄이고 initial ER이 Sung et al.의 1/3 정도임을 알 수 있다. 본 발명의 최종 localization 결과는 관련성이 떨어지는 텍스트 후보를 90%이상 줄이면서 상당한 recall rate을 달성한 것으로 평가될 수 있다.
도 7은 ICDAR 2013 데이터 세트에 대해 본 발명 및 다른 기술의 precision, recall, harmonic mean을 평가한 결과를 나타내는 테이블이다.
도 7에 표시된 것처럼 X.-C. Yin, X. Yin, K. Huang, and H.-W. Hao. Robust text detection in natural scene images. IEEE Trans. Pattern Analysis Machine Intelligence, 36(5):970-983, May 2014에서 제안된 알고리즘과 비교하여도 본 발명의 harmonic mean 등이 우수함을 알 수 있다.
도 8은 Y.-F. Pan, X. Hou, and C.-L. Liu. A hybrid approach to detect and localize texts in natural scene images. IEEE Trans. Image Processing, 20(3):800-813, 2011에서 제안된 다국어 데이터 세트에 대해서 실험한 결과를 나타내는 테이블이다.
도 8에 표시된 것처럼 본 발명은 다른 알고리즘들과 비교하여 향상된 recall, precision, harmonic mean을 나타냄을 알 수 있다.
한편, 이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.
100 : 이미지에 포함된 텍스트를 검출하는 장치
110 : 통신부
120 : 프로세서
130 : 저장부

Claims (26)

  1. 이미지에 포함된 텍스트를 검출하는 방법에 있어서,
    (a) 입력 이미지가 획득되면, 장치가, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하는 단계, (b) 상기 장치가, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하는 단계, 및
    (c) 상기 장치가, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 단계를 포함하는 방법.
  2. 제1항에 있어서,
    상기 (c) 단계는,
    상기 장치가, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 또는 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
  3. 제1항에 있어서,
    상기 검출된 텍스트 후보가 복수 개일 때, 상기 (a) 단계 이후에, (a1) 상기 장치가, 상기 검출된 복수의 텍스트 후보가 포함되는 영역이 소정 비율 이상 서로 겹치는 텍스트 후보를 포함하는 적어도 하나의 텍스트 후보 세트를 식별하고, 식별된 각 텍스트 후보 세트에 대하여 소정의 조건을 만족하는 텍스트 후보를 선택하거나 선택하도록 지원하는 단계를 더 포함하되,
    상기 (b) 단계는,
    상기 소정의 조건을 만족하는 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
  4. 제1항에 있어서,
    상기 (a) 단계에서,
    상기 장치는, 상기 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 크거나 작을 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원하는 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 장치는, 상기 소정의 영역의 픽셀 intensity 레벨을 변경하면서 상기 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고,
    상기 검출된 적어도 하나의 텍스트 후보에서, (i) 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 큰 하위 레벨 텍스트 후보와 (ii) 상기 하위 레벨 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은 상위 레벨 텍스트 후보 중 상기 소정의 영역의 픽셀 intensity 레벨이 가장 큰 텍스트 후보를, 각각 자식 노드와 부모 노드에 할당하여 트리를 구성하거나 구성하도록 지원하는 것을 특징으로 하는 방법.
  6. 제5항에 있어서,
    상기 트리에서 특정 노드에 대하여 상기 특정 노드에 대응되는 텍스트 후보가 포함되는 영역과, 상기 특정 노드에 대응되는 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은, 조상 노드에 대응되는 텍스트 후보가 포함되는 영역이 소정 비율 이상 겹치는 경우가 소정 회수 이상인 경우,
    상기 장치가, 자신의 특정 조상 노드 대비 텍스트 후보가 포함되는 영역의 변화량이 상대적으로 가장 작은 노드에 대응되는 텍스트 후보를 선택하거나 선택하도록 지원하고,
    상기 (b) 단계는,
    상기 선택된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
  7. 제1항에 있어서,
    (d) 상기 장치가, 상기 제1 임계값과 비교하여 분류된 strong text 및 상기 weak text로부터 편입된 strong text를 그룹핑하거나 그룹핑하도록 지원하는 단계를 더 포함하는 방법.
  8. 제7항에 있어서,
    제1 strong text 및 제1 weak text로부터 편입된 제2 strong text가 그룹핑되고 상기 제2 strong text와 제2 weak text의 관련 정보를 참조로 하여 상기 제2 weak text가 제3 strong text로 분류되면,
    상기 장치는, 상기 제3 strong text를 상기 제1 strong text 및 상기 제2 strong text와 함께 그룹핑하거나 그룹핑하도록 지원하는 것을 특징으로 하는 방법.
  9. 제1항에 있어서,
    상기 (b) 단계는,
    상기 제1 임계값과 상기 제2 임계값의 사이에 적어도 하나의 중간 임계값이 있을 때, (i) 상기 non-strong text로 분류된 텍스트 후보를 상기 중간 임계값과 비교하여 상기 strong text 또는 차순위 weak text 로 분류하거나 분류하도록 지원하고, (ii) 상기 차순위 weak text를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text 로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
  10. 제1항에 있어서,
    상기 (b) 단계에서,
    상기 장치는, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀의 피처값을 MLBP(Mean Local Binary Pattern)로 변환한 값을 참조로 하여 상기 (i) 및 상기 (ii)를 수행하거나 수행하도록 지원하는 것을 특징으로 하는 방법.
  11. 제1항에 있어서,
    상기 (b) 단계에서,
    상기 장치는, AdaBoost 알고리즘으로 트레이닝된 분류기를 이용하여 상기 검출된 텍스트 후보를 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
  12. 제1항에 있어서,
    상기 (c) 단계에서,
    상기 관련 정보는, 상기 strong text와 상기 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 포함하는 것을 특징으로 하는 방법.
  13. 제1항에 있어서,
    상기 검출된 텍스트 후보가 포함되는 영역은,
    extra margin을 최소화하면서 상기 검출된 텍스트 후보를 포함하는 바운딩 박스 영역인 것을 특징으로 하는 방법.
  14. 이미지에 포함된 텍스트를 검출하는 장치에 있어서,
    입력 이미지를 획득하는 통신부, 및
    상기 입력 이미지가 획득되면, (i) 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고, (ii) 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하며, (iii) 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 프로세서를 포함하는 장치.
  15. 제14항에 있어서,
    상기 (iii)에서,
    상기 프로세서는, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 또는 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
  16. 제14항에 있어서,
    상기 검출된 텍스트 후보가 복수 개일 때, 상기 (i) 이후에, 상기 프로세서가, 상기 검출된 복수의 텍스트 후보가 포함되는 영역이 소정 비율 이상 서로 겹치는 텍스트 후보를 포함하는 적어도 하나의 텍스트 후보 세트를 식별하고, 식별된 각 텍스트 후보 세트에 대하여 소정의 조건을 만족하는 텍스트 후보를 선택하거나 선택하도록 지원하고,
    상기 소정의 조건을 만족하는 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
  17. 제14항에 있어서,
    상기 (i)에서,
    상기 프로세서는, 상기 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 크거나 작을 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원하는 것을 특징으로 하는 장치.
  18. 제17항에 있어서,
    상기 프로세서는, 상기 소정의 영역의 픽셀 intensity 레벨을 변경하면서 상기 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고,
    상기 검출된 적어도 하나의 텍스트 후보에서, (i) 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 큰 하위 레벨 텍스트 후보와 (ii) 상기 하위 레벨 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은 상위 레벨 텍스트 후보 중 상기 소정의 영역의 픽셀 intensity 레벨이 가장 큰 텍스트 후보를, 각각 자식 노드와 부모 노드에 할당하여 트리를 구성하거나 구성하도록 지원하는 것을 특징으로 하는 장치.
  19. 제18항에 있어서,
    상기 트리에서 특정 노드에 대하여 상기 특정 노드에 대응되는 텍스트 후보가 포함되는 영역과, 상기 특정 노드에 대응되는 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은, 조상 노드에 대응되는 텍스트 후보가 포함되는 영역이 소정 비율 이상 겹치는 경우가 소정 회수 이상인 경우,
    상기 프로세서가, 자신의 특정 조상 노드 대비 텍스트 후보가 포함되는 영역의 변화량이 상대적으로 가장 작은 노드에 대응되는 텍스트 후보를 선택하거나 선택하도록 지원하고,
    상기 선택된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
  20. 제14항에 있어서,
    상기 프로세서가, 상기 (iii) 이후에 iv) 상기 제1 임계값과 비교하여 분류된 strong text 및 상기 weak text로부터 편입된 strong text를 그룹핑하거나 그룹핑하도록 지원하는 것을 특징으로 하는 장치.
  21. 제20항에 있어서,
    제1 strong text 및 제1 weak text로부터 편입된 제2 strong text가 그룹핑되고 상기 제2 strong text와 제2 weak text의 관련 정보를 참조로 하여 상기 제2 weak text가 제3 strong text로 분류되면,
    상기 프로세서는, 상기 제3 strong text를 상기 제1 strong text 및 상기 제2 strong text와 함께 그룹핑하거나 그룹핑하도록 지원하는 것을 특징으로 하는 장치.
  22. 제14항에 있어서,
    상기 (ii)에서,
    상기 제1 임계값과 상기 제2 임계값의 사이에 적어도 하나의 중간 임계값이 있을 때, (ii-1) 상기 non-strong text로 분류된 텍스트 후보를 상기 중간 임계값과 비교하여 상기 strong text 또는 차순위 weak text 로 분류하거나 분류하도록 지원하고, (ii-2) 상기 차순위 weak text를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text 로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
  23. 제14항에 있어서,
    상기 (ii)에서,
    상기 프로세서는, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀의 피처값을 MLBP(Mean Local Binary Pattern)로 변환한 값을 참조로 하여 상기 분류 작업을 수행하거나 수행하도록 지원하는 것을 특징으로 하는 장치.
  24. 제14항에 있어서,
    상기 (ii)에서,
    상기 프로세서는, AdaBoost 알고리즘으로 트레이닝된 분류기를 이용하여 상기 검출된 텍스트 후보를 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
  25. 제14항에 있어서,
    상기 (iii)에서,
    상기 관련 정보는, 상기 strong text와 상기 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 포함하는 것을 특징으로 하는 장치.
  26. 제14항에 있어서,
    상기 검출된 텍스트 후보가 포함되는 영역은,
    extra margin을 최소화하면서 상기 검출된 텍스트 후보를 포함하는 바운딩 박스 영역인 것을 특징으로 하는 장치.
KR1020170015453A 2016-02-03 2017-02-03 이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체 KR101782589B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/014,441 US9524430B1 (en) 2016-02-03 2016-02-03 Method for detecting texts included in an image and apparatus using the same
US15/014,441 2016-02-03

Publications (2)

Publication Number Publication Date
KR20170092476A true KR20170092476A (ko) 2017-08-11
KR101782589B1 KR101782589B1 (ko) 2017-09-27

Family

ID=57538559

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170015453A KR101782589B1 (ko) 2016-02-03 2017-02-03 이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체

Country Status (5)

Country Link
US (1) US9524430B1 (ko)
EP (1) EP3203417B1 (ko)
JP (1) JP6188976B2 (ko)
KR (1) KR101782589B1 (ko)
CN (1) CN107038409B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984305B2 (en) 2016-04-19 2018-05-29 Texas Instruments Incorporated Efficient SIMD implementation of 3x3 non maxima suppression of sparse 2D image feature points
US10496894B2 (en) 2017-03-31 2019-12-03 Tata Consultancy Services Limited System and method for text localization in images
CN107832202A (zh) * 2017-11-06 2018-03-23 郑州云海信息技术有限公司 一种检测硬盘的方法、装置及计算机可读存储介质
CN111386533B (zh) * 2017-11-14 2023-09-05 讯宝科技有限责任公司 使用对称定位的空白区域检测和识别图像数据中图形字符表示的方法和装置
CN109460768B (zh) * 2018-11-15 2021-09-21 东北大学 一种用于组织病理学显微图像的文本检测与去除方法
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10713948B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for alerting abnormal driver situation detected by using humans' status recognition via V2V connection
CN110188622B (zh) * 2019-05-09 2021-08-06 新华三信息安全技术有限公司 一种文字定位方法、装置及电子设备
WO2021070089A1 (en) * 2019-10-11 2021-04-15 Pepper Esports Inc. Method and system for processing textual depictions in a computer game screenshot
CN112418220A (zh) * 2020-12-02 2021-02-26 浙江诺诺网络科技有限公司 一种单字检测方法、装置、设备及介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298725A (ja) * 1999-04-15 2000-10-24 Nec Corp テキストデータ検出装置およびその方法
JP2001092921A (ja) * 1999-09-17 2001-04-06 Toshiba Corp 文字行領域抽出方法と文字行領域検出に用いられる学習方法
US6778700B2 (en) * 2001-03-14 2004-08-17 Electronics For Imaging, Inc. Method and apparatus for text detection
US7236632B2 (en) * 2003-04-11 2007-06-26 Ricoh Company, Ltd. Automated techniques for comparing contents of images
WO2007028166A2 (en) * 2005-09-02 2007-03-08 Blindsight, Inc. A system and method for detecting text in real-world color images
KR100745753B1 (ko) * 2005-11-21 2007-08-02 삼성전자주식회사 영상의 문자 영역 검출장치 및 방법
US8917935B2 (en) * 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
KR101645994B1 (ko) * 2009-12-29 2016-08-05 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법
US8867828B2 (en) * 2011-03-04 2014-10-21 Qualcomm Incorporated Text region detection system and method
KR101175597B1 (ko) * 2011-09-27 2012-08-21 (주)올라웍스 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체
JP6286866B2 (ja) * 2013-05-20 2018-03-07 オムロン株式会社 画像処理装置および画像処理方法
CN104182722B (zh) * 2013-05-24 2018-05-18 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
JP5796107B2 (ja) * 2013-05-24 2015-10-21 キヤノン株式会社 テキスト検出の方法及び装置
CN103279753B (zh) * 2013-06-09 2016-03-09 中国科学院自动化研究所 一种基于树结构指导的英文场景文本块识别方法
US20150039637A1 (en) * 2013-07-31 2015-02-05 The Nielsen Company (Us), Llc Systems Apparatus and Methods for Determining Computer Apparatus Usage Via Processed Visual Indicia

Also Published As

Publication number Publication date
JP6188976B2 (ja) 2017-08-30
EP3203417B1 (en) 2023-09-27
KR101782589B1 (ko) 2017-09-27
EP3203417A2 (en) 2017-08-09
EP3203417C0 (en) 2023-09-27
CN107038409B (zh) 2021-06-04
EP3203417A3 (en) 2017-08-16
JP2017138989A (ja) 2017-08-10
US9524430B1 (en) 2016-12-20
CN107038409A (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
KR101782589B1 (ko) 이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체
Liu et al. Adaptive nms: Refining pedestrian detection in a crowd
US10540531B2 (en) Image identification method, terminal and non-volatile storage medium
US9552536B2 (en) Image processing device, information storage device, and image processing method
CN109918987B (zh) 一种视频字幕关键词识别方法及装置
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
JP2019036008A (ja) 制御プログラム、制御方法、及び情報処理装置
KR101191223B1 (ko) 이미지 검색 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
RU2697649C1 (ru) Способы и системы сегментации документа
US7277584B2 (en) Form recognition system, form recognition method, program and storage medium
KR102655789B1 (ko) 얼굴 검출 방법 및 장치
US8660302B2 (en) Apparatus and method for tracking target
Wang et al. Natural scene text detection with multi-channel connected component segmentation
JP2012073684A (ja) 画像認識方法及び装置並びにプログラム
Han et al. Class-aware feature aggregation network for video object detection
JP2014197412A (ja) 画像の類似検索システム及び方法
US9710703B1 (en) Method and apparatus for detecting texts included in a specific image
US20150086118A1 (en) Method for recognizing a visual context of an image and corresponding device
CN111191591A (zh) 一种水印检测、视频处理方法和相关设备
Gawande et al. Scale invariant mask r-cnn for pedestrian detection
Guo et al. Image saliency detection based on geodesic‐like and boundary contrast maps
Luo et al. Hybrid cascade point search network for high precision bar chart component detection
Kawano et al. TAG: Guidance-free Open-Vocabulary Semantic Segmentation
KR102232797B1 (ko) 객체 식별 장치, 그 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR20110071209A (ko) 계층적 영상블록의 대칭정보를 이용한 비디오 식별 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant