KR20140091762A - 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출 - Google Patents

히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출 Download PDF

Info

Publication number
KR20140091762A
KR20140091762A KR1020147016856A KR20147016856A KR20140091762A KR 20140091762 A KR20140091762 A KR 20140091762A KR 1020147016856 A KR1020147016856 A KR 1020147016856A KR 20147016856 A KR20147016856 A KR 20147016856A KR 20140091762 A KR20140091762 A KR 20140091762A
Authority
KR
South Korea
Prior art keywords
bins
histogram
scale
spatial
sets
Prior art date
Application number
KR1020147016856A
Other languages
English (en)
Other versions
KR101617681B1 (ko
Inventor
샹-수안 츠사이
바수데브 파라메스와란
라덱 그르제스즈크주크
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20140091762A publication Critical patent/KR20140091762A/ko
Application granted granted Critical
Publication of KR101617681B1 publication Critical patent/KR101617681B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Abstract

디지털 이미지는 다중 레벨 이미지로 변환되고, 다수의 스케일 세트들은 다중 레벨 이미지의 연결 요소들로부터 형성되어 스케일 세트들의 상이한 스케일 세트들은 상이한 크기 공간 빈들을 정의한다. 다수의 스케일 세트들의 각각의 스케일 세트마다 각각의 스케일 세트로부터 추출되는 연결 요소들의 카운트가 각각의 공간 빈들에 대해 생성되고; 연결 요소들을 나타내는 인접하는 공간 빈들은 링크된다. 그리고 나서 상이한 스케일 세트들로부터의 연결 요소들이 병합되고 텍스트 라인 검출이 병합된 연결 요소들에 대해 수행된다. 하나의 실시예에서 스케일 세트들의 각각은 히스토그램이고 모든 빈들을 링크하기 전에 사전결정된 것보다 더 작은 카운트로 필터링되고; 각각의 히스토그램은 인접하는 수평 및 수직 빈들의 카운트들이 가산되도록 확장되고(단일 영역 빈들이 필터링된다) 확장된 히스토그램들에 대하여 링크된다.

Description

히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출{TEXT DETECTION USING MULTI-LAYER CONNECTED COMPONENTS WITH HISTOGRAMS}
본 발명의 예시적이며 비제한적인 실시예들은 일반적으로 디지털 이미징(digital imaging) 디바이스들 및 관련 소프트웨어에 관한 것으로, 특히 스마트폰 카메라에 의해 캡처(capture)될 수 있는 그와 같은 디지털 이미지로부터의 텍스트 검출 및 인식에 관한 것이다.
텍스트 인식은 흔히 컴퓨터 비전(vision) 및 패턴 인식의 분야들에서, 특히 시각 이미지들을 디지털 텍스트로 변환할 필요가 있는 애플리케이션(application)들에 적용된다. 광 문자 인식(optical character recognition; OCR) 시스템들은 종이 문서들을 디지털 문서들로 변환하기 위해 플랫베드(flatbed) 스캐너들을 사용하고, 사용되는 이 기술은 텍스트의 이미지들을 디지털 텍스트로 변환한다. 스마트폰 디바이스들 상에서의 번역 서비스들과 같은 모바일 비전 애플리케이션들은 또한 이 기술들을 사용하여 사용자가 취한 영상으로부터 외국어 텍스트를 번역할 수 있다. 디지털 맵(digital map) 생성 분야에서 이 기술은 예를 들어 차량 장착 디바이스들로부터 주기적으로 샘플링되는 이미지들로부터 디지털 컨텐츠를 생성하는 데 사용될 수 있다. 이 이미지들로부터, 스토어프론트(storefront)들 및 도로 표지판들 상의 텍스트가 식별되고 이 텍스트는 관심 지점(point of interest; POI) 정보를 만드는 데 사용될 수 있다. 그러나, 현재의 텍스트 검출 방법들은 초기에 기대했던 것만큼의 많은 개선을 제공하지 않았다.
현재 텍스트 인식 시스템들이 적용된 가장 성공적인 애플리케이션은 흔히 90% 이상의 정확도를 가지는 문서 변환 시스템이다. 플랫베드 스캐너 장치를 넘어서는 텍스트 인식 시스템들은 매우 성공적이지 않았다. 이 격차에 대한 하나의 원인은 자연의 장면 이미지들에서 제한이 없는 조명 및 뷰(view) 상태들이 존재하고 이 상태들이 텍스트 인식 정확도를 줄인다는 점이다. 이 문제를 해결하기 위한 하나의 방법은 자연 장면 텍스트 검출 알고리즘을 이용하는 것인데, 이 알고리즘은 전형적으로 어떤 인식 시도들이 행해지기 전에 텍스트를 찾아내는 데 적용된다. 위치가 검출된 텍스트는 그 후에 더 양호한 조명 상태를 가질 것이며 텍스트 인식 또는 패턴 매칭(matching)의 제 2 스테이지에서 더 양호하게 사용될 수 있다. 그러나, 이 방법은 초기에 기대했던 것만큼의 많은 개선을 제공하지 않았다.
넓게 보면, 텍스트 검출은 주로 두 개의 별개의 카테고리들로 분리될 수 있다: 1) 영역 기반 텍스트 검출; 및 2) 연결 요소(connected component) 기반 텍스트 검출. 영역 기반 방법에서, 슬라이딩 윈도가 디지털 이미지에 걸쳐 적용되고 윈도가 텍스트를 포함하는지의 여부를 분류하기 위한 테스트가 적용된다. 예를 들어, 2000년 IEEE Trans. Pattern Anal. Mach. Intel1에서의 Y. Zhong, H. Zhang 및 A. K. Jain의 "Automatic caption localization in compressed video", vol.22, no.4, 페이지 385 내지 392(영역을 분류하기 위해 이산의 코사인 변환 공간 내의 피처(feature)들을 사용한다); 및 2005년 CVPR-워크샵에서의 X. Chen 및 A. L. Yuille의 "A time-efficient cascade for real-time object detection: With applications for the visually impaired", 페이지 28(강도, 경사들 및 피처들을 사용하고; 분류를 수행하기 위해 Adaboost 알고리즘을 트레이닝(training)한다)가 참조된다.
연결 요소 방법에서, 테스트에 대해 분석되고 있는 디지털 이미지는 우선 이진 이미지(binary image)로 변환된다. 이미지 내의 연결 요소들은 문자 후보들로서 간주된다. 이 문자 후보들은 쌍을 이루고 텍스트 라인들을 형성하도록 링크된다. 텍스트 라인들의 기하학적 특성은 전형적으로 거짓 양성(false positive)들을 필터링하는 데 사용될 수 있다; 예를 들어, 2009년 Int. Conf. on Document Analysis and Recognition에서의 A. Clavelli 및 D. Karatzas의 "Text Segmentation in Colour Posters from the Spanish Civil War Era", 페이지 181 내지 185; 2010년 CVPR에서의 B. Epshtein, E. Ofek 및 Y. Wexler의 "Detecting text in natural scenes with stroke width transform", 페이지 2963 내지 2970 (또한 동일한 세 명의 개인들에 의한 그리고 유사한 명칭을 가진 미국 특허 공개공보 2009/0285482를 참조할 것); 및 또한 2011년 ICIP에서의 H. Chen, S. S. Tsai, G. Schroth, D. Chen, R. Grzeszczuk, B. Girod의 "Robust text detection in natural images with edge-enhanced maximally stable extremal regions"가 참조된다.
Epshtein 등에 의한 작업은 스트로크 폭 변환(Stroke Width Transform; SWT)에 기초하는 텍스트 검출 방식을 고려한다. 구체적으로, Epshtein 등의 기술은 Canny 에지 검출기[1986년, IEEE Trans. Pattern Analysis and Machine Intelligence에서의 Canny, J.의 "A Computational Approach To Edge Detection" 8(6):679 내지 698을 참조할 것]를 사용하여 이미지 내의 에지들을 찾고 그 후에 각각의 검출된 에지의 경사 방향으로 광선을 발사하고, 대응하는 에지들에 기초하여 문자 후보들을 형성함으로써 문자 스트로크의 두 측들을 찾는 시도를 행한다. H. Chen 등에 의한 기술은 Canny 에지들을 사용하여 강화되는 문자 후보들로서 MSER들[예를 들어 2002년 British Machine Vision Conference에서의 J. Matas, O. Chum, M. Urban 및 T. Pajdla의 "Robust wide baseline stereo from maximally stable extremal regions", vol. 1, 페이지 384 내지 393을 참조할 것]을 사용한다. H. Chen 등에 의한 이 기술은 또한 스트로크 폭을 계산하기 위해 거리 변환 기반 방법을 사용한다. 그리고 최종적으로 2011년 Document Analysis 및 Retrieval에서의 Int. Conf.에서의 Lukas Neumann, Jiri Matas의 "Text localization in real-world images using efficiently pruned exhaustive search"는 이진 레벨 프로세싱을 넘어서 확장되도록 확장 MSER 영역을 사용한다. 본원에서 발명자들은 모든 가능한 영역들 전체에 걸친 철저한 탐색에 의해 텍스트를 검색하는 Lukas Neumann의 기술이 너무 시간 소모적이라고 간주한다.
본 분야에서는 디지털 이미징을 통해 캡처되는 자연 장면들에서 텍스트를 인식하고, 특히 관심 지점 정보를 수집하고(예를 들어 스마트폰에서) 디지털 맵들을 작성하는(예를 들어 차량 장착 카메라에서) 것과 같은 상술한 동적 애플리케이션들로 사용하는 데 적합한 개선이 필요하다.
본 발명의 목적은 상술한 문제를 해결하는 것이다.
본 발명의 예시적인 실시예들을 사용함으로써 상기 및 다른 문제들이 극복되고 다른 장점들이 실현된다.
본 발명의 제 1 양태에 따르면, 적어도 하나의 프로세서 및 컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하는 장치이다. 이 제 1 양태에서 적어도 하나의 메모리 및 컴퓨터 프로그램 코드는 적어도 하나의 프로세서와 함께, 장치로 하여금 적어도: 디지털 이미지를 다중 레벨 이미지로 변환하고; 다중 레벨 이미지의 연결 요소들로부터 다수의 스케일 세트(scale set)들을 형성하고, 스케일 세트들의 상이한 스케일 세트들은 상이한 크기 공간 빈(bin)들을 정의하고; 다수의 스케일 세트들의 각 스케일 세트마다, 각각의 스케일 세트로부터 추출되는 연결 요소들의 카운트(count)를 각각의 공간 빈에 대해 생성하고, 연결 요소들을 나타내는 인접하는 공간 빈들을 링크하고; 그 후에 상이한 스케일 세트들로부터의 연결 요소들을 병합하고 병합된 연결 요소들에 대해 텍스트 라인 검출을 수행하도록 구성된다.
본 발명의 제 2 양태에 따르면, 방법이 있고, 상기 방법은: 디지털 이미지를 다중 레벨 이미지로 변환하는 단계; 적어도 하나의 프로세서에 의해 다중 레벨 이미지의 연결 요소들로부터 다수의 스케일 세트들을 형성하는 단계로서, 스케일 세트들의 상이한 스케일 세트들은 상이한 크기 공간 빈들을 정의하는, 형성하는 단계; 및 다수의 스케일 세트들의 각각의 스케일 세트마다, 각각의 스케일 세트로부터 추출되는 연결 요소들의 카운트를 각각의 공간 빈들에 대해 생성하고 연결 요소들을 나타내는 인접 공간 빈들을 링크하는 단계; 그리고 나서 상이한 스케일 세트들로부터의 연결 요소들을 병합하는 단계; 및 병합된 연결 요소들에 대하여 텍스트 검출을 수행하는 단계를 포함한다.
본 발명의 제 3 양태에 따르면 적어도 하나의 프로세서에 의해 실행 가능한 명령어들의 프로그램을 유형적으로 저장하는 컴퓨터 판독 가능 메모리가 제공된다. 명령어들의 프로그램은: 디지털 이미지를 다중 레벨 이미지로 변환하는 코드; 다중 레벨 이미지의 연결 요소들로부터 다수의 스케일 세트들을 형성하는 코드로서, 스케일 세트들의 상이한 스케일 세트들은 상이한 크기 공간 빈들을 정의하는, 형성하는 코드; 다수의 스케일 세트들의 각각의 스케일 세트마다, 각각의 스케일 세트로부터 추출되는 연결 요소들의 카운트를 각각의 공간 빈에 대해 생성하는 코드 및 연결 요소들을 나타내는 인접하는 공간 빈들을 링크하는 코드를 포함하고; 상기 프로그램은 상이한 스케일 세트들로부터의 연결 요소들을 병합하는 코드; 및 병합된 연결 요소들에 대해 텍스트 검출을 수행하는 코드를 더 포함한다.
도 1은 캡처되는 디지털 이미지로부터 도출되는 다중 레벨 이미지를 도시하며; 다중 레벨 이미지의 연결 요소들은 상이한 스케일 세트들을 형성하기 위해 제 2 열(row)에서 도시되는 바와 같이 상이한 공간 빈(spatial bin)들 및 상이한 스케일들을 통하여 통과되고 최종 열의 추출된 영역들은 상이한 스케일들을 위해 사용되는 도면이다.
도 2는 도 1의 추출된 영역들과 같이, 디지털 이미지로부터 추출되는 상이한 크기의 영역들로부터 도출되는 피처(feature) 카운트들의 히스토그램을 도시하는 도면이다.
도 3a는 도 2의 히스토그램들의 수평 필터링을 도시하는 도면이다.
도 3b는 셋 이상의 연결 요소들을 가지는 것들을 유지하기 위한 도 3a로부터의 히스토그램 빈들의 마킹(marking)을 도시하는 도면이다.
도 3c는 도 3b의 빈들에서 유지되는 연결 요소들의 수평 및 수직 링킹(linking)을 도시하는 도면이다.
도 4는 도 1의 영역 "A"에 도시되는 텍스트를 인식하기 위하여 이진화 방식(binarization scheme)(좌측) 및 본 내용들에 따른 다층 방식(우측)을 비교하는 도면이다.
도 5는 히스토그램 필터링 전에 본 내용들에 따라 프로세싱 한 후에(좌측) 그리고 그와 같은 필터링 후에(우측) 도 1의 전체 디지털 이미지를 도시하는 도면이다.
도 6은 본 내용들에 따라 본원에서 기술되는 텍스트 검출을 수행하고 컴퓨터 판독 가능 메모리에 저장되는 프로그램을 구비하는 호스트 디바이스의 부분화된 블록도를 도시하는 도면이다.
도 7은 본 내용들의 예시적인 실시예들에 따라, 컴퓨터 판독 가능 메모리 상에서 구현되는 컴퓨터 프로그램 명령어들을 실행하는 방법의 동작 및 결과를 도시하는 논리 흐름도이다.
디지털로 캡처된 자연 장면의 배경으로부터 텍스트를 검출하는 많은 종래의 방법들은 이진화(binarization)을 사용한다. 이 방법에서, 이진화 스테이지는 예를 들어 전역 이진화, 적응형 이진화 또는 최대 안정 극 영역(Maximally stable extremal region; MSER)들을 통해 자연 장면 이미지를 이진-레벨 이미지로 변환하도록 적용된다(예를 들어 상기 배경부에서 인용된 "Robust wide baseline stereo from maximally stable extremal regions"를 참조할 것). 추가 단계들은 이진 레벨 이미지들의 연결 요소들을 고려하고 텍스트 문자 후보들로서 그리고 텍스트 라인 포메이션의 후속 스테이지에 대한 기본 구축 블록들로서 사용된다.
발명자들은 문자 후보 생성이 가장 기본 스테이지이고, 이는 상기 이진화 프로세스의 수행이 매우 중요한 것임을 의미한다고 간주한다. 그러나, 이미지를 이진 형태로 변환하는 것은 텍스트가 장면/이미지 내의 자체의 배경에 비해 양호한 콘트라스트(contrast)를 가지고 있음을 가정한다. 이 가정은 모든 자연 장면 이미지들에 대해 유효하지 않다. 예를 들어 카메라를 사용하여 얻은 이미지들을 고려하면; 장면 내의 텍스트는 초점을 벗어날 수 있거나, 이 텍스트는 모션 블러를 포함할 수 있거나, 상기 텍스트는 비균일한 조명을 나타낼 수 있다.
이 문제들을 더 양호하게 처리하기 위해 본원에서의 내용들은 텍스트 검출을 위해 다중-레벨 방법을 사용한다. 특정한 예들로 다양한 단계들을 더 상세히 설명하기 위해 우선 요약이 제공되고 이후에 도 1 내지 도 5를 참조하여 상세한 설명이 제공된다. 이 내용들에서, 자연 장면 이미지들을 이진 레벨 이미지로 변환하는 대신, 자연 장면 이미지는 세부사항들을 더 양호하게 보존하는 다중 레벨 이미지로 변환된다. 이진 레벨 이미지들에서, 이진 레벨 이미지 내의 연결 요소들이 기본 구축 블록들로서 사용된다. 그러나, 본원에서 상세하게 설명되는 다중 레벨 방법은 상이한 스케일 세트들의 연결 요소들을 활용한다. 이는 결과적으로, 본 내용들이 다차원 히스토그램들을 사용하여 처리할지라도 상이한 크기들의 중첩 영역들을 발생시킨다. 필수적으로, 다중 층 연결 요소들을 조직하는 데에 히스토그램들이 사용된다. 도 5에서 도시되는 바와 같이, 중첩되지만 크기가 상이한 영역들에 대한 이 체계적인 방법의 최종 결과는 개선된 텍스트 검출 알고리즘이다.
연결 요소들을 중첩하는 것은 다중 레벨 이미지의 상이한 스케일 세트들로부터 발생된다. 이 상이한 연결 요소들은 다차원 히스토그램을 사용하여 조직된다. 다중 레벨 이미지(예를 들어 적응형 이진화 또는 MSER들의 추출에 의해 생성되는)의 각각의 연결 요소는 자체의 공간 및 기하학적 크기 및 일부 실시예들에서 추가 기하학적 속성들에 기초하여 히스토그램 빈으로 비닝(binning)된다. 하나의 크기 범위의 연결 요소들은 한 스케일 세트의 빈들 내에서 카운트되고; 다른 크기 범위의 연결 요소들은 상이한 스케일 세트의 빈들에서 카운트되고, 기타 등등이다. 이 방식에서 다중 레벨 이미지는 글자-숫자 문자 후보들인 연결 요소들을 통해 스케일 세트들을 형성하는 데 사용된다. 소정의 수의 연결 요소들에 의해 채워지는 히스토그램 빈에 해당하는 연결 요소들은 도 3b에 도시되는 바와 같이 문자 후보들로서 간주되고; 소정의 컷오프 수보다 더 작은 수를 가지는 그러한 빈들은 추가로 텍스트로 간주되는 것으로부터 제외된다. 도 3a에 의해 도시되는 바와 같이, 히스토그램은 또한 특정한 실시예에서 수직 또는 수평 방향으로 확장될 수 있다. 공간적으로 중첩되는 히스토그램들은 경계 효과들을 감소시키는 데 사용될 수 있다. 동일한 빈의 중첩된 연결 요소들은 이 빔이 단지 단일 중첩인 경우에 서로 링크된다. 그 후에 동일한 히스토그램 빈 내의 문자 후보들은 도 3c에서 도시되는 바와 같이 쌍 방식(pairwise)으로 연결되고, 공간적으로 이웃하는 빈 히스토그램 또한 연결될 수 있다. 그 후에 문자 후보들이 쌍 방식으로 연결된 클러스터들로부터, 텍스트 라인들이 형성된다.
종래 기술의 텍스트 인식 기술에서 사용되는 간단한 이진화 프로세스들과 비교하면, 본 내용들은 텍스트 검출을 위해 히스토그램들을 사용하여 이미지의 다중 층 연결 요소들을 상이한 레벨들로 분리한다. 또한 그러한 종래 기술들과는 달리, 경계 효과들을 줄이는 데 사용될 수 있는 중첩된 히스토그램들이 존재한다. 히스토그램을 사용하는 쌍 방식 연결 및 링크화는 또한 이전의 방법들에 비해 신규한 것으로 확인된다.
이제 도 1 내지 도 5를 참조하여 이 기술에 대한 더 구체적인 예를 고려한다. 도 1의 상부(제 1 열)에 있는 자연 장면 이미지는 다중 레벨 이미지로 변환되고; 도 1은 MSER을 사용하지만 적응형 이진화 또는 다른 추출 기술들이 유사하게 효과적으로 작용될 수 있다. 도 1의 제 2 열은 공간 그리드(grid)들에 의해 경계가 형성되는 빈 위치들을 도시한다. 이 제 2 열 내의 각각의 단일 블록에서의 그리드 라인(grid line)들이 상이한 컬러(도 1의 흑 및 백의 상이한 쉐이딩(shading))는 각각의 블록이 2개의 별개의 그리드들을 가지고 있음을 나타내고, 이것은 소정의 블록에 대한 이미지 상에서의 각각의 포인트 또는 픽셀이 중첩하는 2개의 상이한 빈들 내에 포함되는 것을 의미한다. 이 기술은 블록당 셀 이상이 중첩하는 동일 크기 그리드들로 용이하게 확장되거나 하나로 축소되어서 동일-크기 빈들의 중첩이 없을 수 있지만, 동일 크기의 그리드가 아무리 많이 있을지라도, 이는 하나의 레벨 세트로 간주된다. 빈 위치 열 내의 각각의 블록이 상이한 크기를 가지고 있고; 그러므로 각각의 상이한 크기의 그리드 블록이 MSER(또는 적응형 이진 등) 추출의 상이한 스케일 세트를 나타내는 것이 주목된다. 도 1은 총 5개의 스케일 세트들을 도시한다. 빈 위치들을 도시하는 제 2 열은 도 2의 히스토그램들이 어떻게 전개되는지를 독자에게 개념적으로 이해시키기 위한 것이다.
도 1의 가장 아래의 열은 도 1의 상부에 있는 이미지로부터의 다중 레벨 추출을 도시하고, 각각의 블록은 하나의 레벨을 나타내고 각각의 블록은 자신 바로 위에 있는 빈 위치 블록에 있는 그리드 라인들에 따라 개념적으로 분리된다. 그러므로, 최좌측 추출 영역은 가장 작은 빈 크기들(가장 작은 스케일 세트, 예를 들어, 빈당 10 내지 30 픽셀들)로 분리되고, 최우측 추출은 가장 큰 빈 크기들(가장 큰 스케일 세트, 예를 들어 42 내지 126 픽셀들)로 분리된다. 이는 다중 층 추출이고, 각각의 상이한 크기 빈은 상기 추출의 상이한 레벨을 나타내고 하나의 상이한 크기 빈 내에는 연결 요소들이 위치된다. 당연히, 도 1에 있는 최좌측 영역은 전체 이미지에 대한 추출을 도시하지 않지만 이것은 이 도면으로 제한되지 않고; 실제로 전체 이미지는 상이한 빈 크기들에 따른 다수의 레벨들/스케일들에 대해 추출된다. 이것은 소정의 블록 중첩 내에 있는 동일한 크기 빈들이 중첩할 뿐만 아니라(도 1에서 도시되는 바와 같이 스케일 당 둘 이상의 중첩 그리드들이 존재하는 경우) 상이한 블록들 내의 상이한 크기 빈들이 또한 중첩하는 것을 의미한다(중첩된 빈들에 원래의 이미지의 동일한 픽셀들의 일부가 나타나므로). 이 빈들이 히스토그램들을 생성하는 데 사용된다. 연결 요소들은 스케일 세트들에 기초하여 다중 레벨 이미지로부터 추출되고, 상술한 바와 같이 도 1의 최하위 열의 각각의 블록은 하나의 스케일 세트를 나타낸다. 도 1의 좌측에 있는 가장 작은 스케일 세트는 상대적으로 작은 폰트 크기를 가지는 문자 후보들을 식별할 것이고 도 1의 우측에 있는 가장 큰 스케일 세트는 상대적으로 큰 폰트 크기를 가지는 문자 후보들을 식별할 것이다. MSER들의 경우, 각각의 스케일 세트는 상이한 검출 MSER 영역들에 대응할 수 있다.
도 1의 각각의 상이한 스케일 세트 추출(최하위 열에서의)은 하나의 히스토그램을 생성할 것이고, 소정의 추출 빈에서의 요소들의 위치는 카운트될 것이고 이 카운트는 대응하는 히스토그램의 동일한 빈에 배치될 것이다. 구현 소프트웨어를 통해 정정되지 않으면, 소정의 레벨의 임의의 중첩하는 동일 크기 빈들은 소정의 요소로 하여금 이중 또는 삼중으로 카운트되도록 할 것이다(레벨 당 얼마나 많은 중첩 그리드들이 존재하는지에 따라). 심지어 정정이 없을지라도, 상기 추출의 모든 스케일 레벨들이 동일한 수의 중첩하는 동일 크기의 그리드들을 사용하는 한, 모든 픽셀들이 유사하게 이중 삼중으로 카운트될 것이므로 최종 결과는 영향을 받지 않는다. 상이한 추출 세트들에 상이한 수의 동일 크기 그리드들이 존재하는 경우, 중첩하는 상이한 크기의 빈들이 결합되는 이후의 프로세스에서 얼마간의 히스토그램의 정규화가 필요할 것이다.
MSER은 텍스트 검출에 매우 유용한 것으로 증명되었다. 하나의 이미지 내에서, 텍스트 문자들은 전형적으로 어느 정도 균일한 컬러를 가진다; 구체적으로 텍스트 문자들은 문자 내부에서의 색 변화가 상대적으로 거의 없고 글자 경계들에서 색 변화가 크다. 이 상태들은 하나의 이미지 내에서 MSER이 추구하는 안정된 결과들과 충분히 상관되므로, MSER들은 텍스트 문자 후보들로서 처리될 수 있다. 블러 또는 노이즈가 있을 때 경계는 덜 명확해지므로, MSER 검출에 대한 더 관대한 문턱값을 허용하는 것은 더 많은 영역들이 식별되는 것(그리고 더 적은 실제 문자들이 인식되지 않는다)을 더 양호하게 보장한다. 관대한 문턱값들로 인한 더 큰 수의 MSER들에 내재하는 증가되는 계산 복잡도는 본원에서 상세하게 설명되는 히스토그램 필터링을 통한 고속 및 효율적인 프로세싱에 의해 오프셋(offset)된다.
도 2는 히스토그램들을 도시한다. 이 실시예에서 히스토그램들은 스케일 세트당 연결 요소의 차원들 '크기', 'x 좌표' 및 'y 좌표'를 가진다. 다른 실시예들은 다른 기하학적 요소들을 사용할 수 있다(예를 들어, 직교 x 및 y 좌표들 대신 반경 방향 좌표(radial coordinate)들). 인접하는 공간 빈들은 그 후에 x 또는 y의 단 하나의 값으로 오프셋(offset)되고, 각각의 히스토그램/스케일 세트에서의 연결 요소들의 이 인접하는 빈들은 후술되는 바와 같이 링크된다. 이 내용들을 구현하는 구체화된 소프트웨어는 도 2에 도시된 바와 같은 그림의 히스토그램들을 제작할 필요가 없고, 이 구현 소프트웨어에서 빈들 및 빈당 대응하는 카운트들이 디지털 비트들에 의해 표현되는 것으로 충분하다. 설명의 명료성을 위해 도 2 히스토그램은 도 1의 추출된 레벨들로부터 정확하게 도시되지 않지만, 중요한 점은 상이한 히스토그램들에 대해 상이한 공간 그리드들(상이한 빈 크기들을 의미함)이 존재하는 점이다. 빈당 연결 요소들의 카운트를 가지는 3차원 히스토그램들은 도 1에서 도시된 다중 레벨 추출들로부터 작성된다. 이 히스토그램들을 작성하는 하나의 방법은 어떤 빈에서 연결 요소들이 표현될 것인지를 카운트하기 위하여 경계 박스/빈의 빈 중심 및 크기를 이용하는 것이다. 도 2에서 도시된 히스토그램들은 경계 효과들을 줄이기 위해 공간적으로 중첩하고 있다. 상이한 컬러들(도 2에 도시되는 바와 상이한 그레이 스케일(gray-scale)들)은 상기 빈 내에 얼마나 많은 연결 요소들이 있는지에 대한 확률 또는 상이한 카운트를 나타낸다.
히스토그램의 각각의 상이한 스케일 레벨은 별개로 필터링된다. 도 3a에 도시되는 바와 같이, 바로 위의 도 2의 히스토그램은 각각의 빈마다 수평으로 인접한 이웃 빈들의 카운트들이 가산되도록 수평 방향으로 확장된다. 수직 방향으로도 마찬가지로 행해진다. 이것은 특히 다른 것들과 연결되지 않은 단일 영역들을 필터링함으로써 더 양호한 문자 후보들을 찾는 것을 돕는다. 이것은 또한 상술한 바와 같이 더 관대한 경계 문턱값들로 인하여 더 큰 수가 생성되는 MSER들을 제거함으로써 계산 부담을 크게 감소시킨다.
도 3a에 도시된 수평 필터링에 유사한 수직 필터링을 더한 결과가 방향성 히스토그램(directional histogram)인 것으로 간주되면, 도 3b에서의 다음 단계는 카운트가 어떤 사전결정된(일정한) 문턱값, 예를 들어 3개의 연결 요소들보다 더 작은(상기 가정은 모든 단어들이 최소 3개의 문자들을 가질 것이라는 것이다) 방향성 히스토그램의 그러한 빈들 모두를 필터링하는 것이다. 이 영역들에 해당하는 MSER들만이 텍스트 문자들인 것에 대한 후보들로서 유지된다. 구현 소프트웨어는 이 단계에 대한 하나의 실시예에서 각각의 레벨의 히스토그램에 해당하는 연결 요소들에 대한 지수들의 목록을 보유할 수 있다. 그 후에 이 목록을 사용하여 단일하게 중첩되는 연결 요소들이 병합된다. 다수 중첩된 영역들의 경우, 더 큰 영역들이 제거된다. 도 5는 이 필터링의 결과를 도시하고; 좌측은 필터링 이전이며 우측은 텍스트 검출 알고리즘의 이후의 프로세싱 단계들로부터 더 많은 '노이즈'를 효과적으로 제거한 이후이다. 도 1로부터의 영역들 "A" 및 "B"은 독자를 위해 이 도면들을 더 양호하게 상관시키기 위해 도 5에 또한 도시된다.
최종적으로 도 3c에서 동일한 히스토그램 빈들 내에 그리고 또한 이웃하는 동일한 크기의 빈들 내에 있는 연결 요소들이 링크된다. 도 3c는 이것을 수평 방향으로의 연결들에 대해서는 하나의 컬러(또는 그레이스케일 쉐이딩의 레벨)로 그리고 수직 방향으로의 연결들에 대해서는 상이한 컬러(또는 그레이스케일 쉐이딩의 레벨)로 도시한다.
그 후, 상이한 스케일 세트들로부터 링크되는 요소들이 병합된다. 더 작은 스케일 세트들로부터 시작해서 더 큰 스케일 세트들로 이동함으로써, 각 연속하는 세트마다 그 다음 더 큰 히스토그램으로부터 연결되는 MSER들의 쌍들을 가산하는 것이 편리하다. 새로 가산된 MMSER 영역이 세트 내의 다른 MSER 영역과 공간적으로 중첩되면, 이 가산된 MMSER 영역은 원래의 영역과 병합되고 또한 이 병합을 반영하도록 갱신된다. 새로 가산된 영역이 세트 내의 둘 이상의 MSER 영역들과 공간적으로 중첩되면, 이 영역은 병합되지 않는다.
텍스트 라인 검출은 그 후에 링크된 연결 요소들에 대하여 수행될 수 있다. 텍스트는 거의 언제나 직선들 또는 미세 곡선들의 형태로 나타나므로, 텍스트 라인 검출은 텍스트 검출에 대한 중요한 단서이다. 예를 들어 스트로크 폭 중앙값들에 대해 1.5의 최대비 그리고 스트로크 높이 중앙값들에 대해 2.0의 텍스트 라인들을 생성하기 위해(대문자들 및 소문자들을 고려한다) 글자 후보들의 쌍 방식 그룹들의 스트로크 폭 및 문자 높이를 비교하는 규칙이 사용된다.
도 1의 영역 "B"에 대한 결과들은 도 4에 도시되고, 좌측은 간단한 이진화의 결과들을 나타내고 우측은 상술한 다중 레벨 히스토그램 프로세스의 결과들을 나타낸다. 텍스트 워드 "BAND"에서, 처음 세 문자들 "BAN"은 간단한 이진화 하에서 불량하게 해상(resolve)되지만 상이한 영역들을 연결하는 문제들을 더 양호하게 처리하는 상기 내용들을 사용하면 훨씬 더 양호하게 해상되는 점이 유의된다. 도 4에서의 좌측에 있는 간단한 이진화 기술이 여전히 텍스트로서 인식 가능할지라도, 도 4에 도시된 두 결과들 사이를 구분하는 것은 현저히 충분하므로 다른 이미지들에서는 간단한 이진화 기술이 텍스트로서 인식되지 않지만 본 내용들에 따라 기능하는 알고리즘에 의해 놓치지 않는 텍스트가 존재할 수 있다.
예를 들어, 거짓 문자 후보들을 필터링하기 위해 스트로크 폭 테스트를 수행하고, 쌍 방식으로 링크하기 전에 후보 문자 크기를 비교하고 쌍 방식으로 링크하기 전에 후보 문자들의 에지들(예를 들어, Canny 에지들 또는 다른 기술들)을 강화하는 것과 같이, 성능을 개선하기 위해 상기 단계들이 추가 세밀화(refinement)가 더 추가될 수 있다.
이 내용들의 예시적인 실시예들은 종래 기술과 비교하여 다음의 기술 효과들을 제공한다. 이 기술들은 다중 레벨 이미지들과 함께 작업될 수 있고 이전의 기술들보다 더 많은 정보를 보존할 수 있을 것이며, 다차원 방법은 유사하고 인근의 연결 요소들을 보전함으로써 특히 도 5에서 도시된 바와 같은 클러스터 역할을 하는 다른 연결 요소들을 제거할 수 있다. 추가로, 요소 연결 및 링크화는 히스토그램들이 상술한 바대로 용이하게 하는 데 사용될 때에는 더 간소화된 프로세스이다.
본 내용들의 실시예들은, 사용자의 스마트폰으로부터 또는 차량 장착 디지털 매핑 플랫폼으로부터 관심 지점 정보를 생성하여 그와 같은 디지털 맵들 또는 관심 지점들에 대해 또는 상기 디지털 맵들 또는 관심 지점들에 따라 제시되는 관심 지점 정보를 제공하는 것과 같이, 내비게이션 매핑 및 관심 지점 서비스들에서 유용하게 사용될 수 있다. 예를 들어, 사용자는 자신의 스마트폰 상에서 도 1의 이미지를 캡처하고 이것을 서비스 제공자 서버로 업로드할 수 있고, 그 후에 서비스 제공자는 상술한 바와 같은 다중 계층 추출 및 텍스트 인식을 수행하고 자신의 고객이 밴드가 연주하고 있는 호텔의 주소 또는 명칭 또는 밴드의 명칭 자체의 탐색을 입력할 때 상기 고객에게 도 4에 도시된 밴드의 명칭 및 공연 시간을 제시한다.
이미지 캡처링 디바이스를 구비할 수 있거나 구비할 수 없는(예를 들어, 상기 예의 서버는 자기 자신의 카메라를 구비할 수 없을 것이다) 모바일 단말기들/스마트폰들 또는 서버들 및 다른 컴퓨터 장비를 포함하여, 본 발명의 실시예들이 구현될 수 있는 많은 호스트 디바이스들이 있다. 일반성의 상실 없이, 컴퓨터 또는 데이터 프로세서(DP)(10A)와 같은 하나 이상의 제어기들, 프로세싱/분석될 디지털 이미지(10E)뿐만 아니라 컴퓨터 명령어들(10C)의 프로그램을 저장하는 메모리로서 구현되는 컴퓨터 판독 가능 저장 매체 및 다양한 형태들 중 임의의 형태로의 다중 레벨 추출 이미지 프로세싱의 결과들을 다른 서버들과 같은 추가 디바이스들에 제공하는 출력(10F)을 포함하는, 도 6의 호스트 디바이스가 고려된다.
프로그램들(10C) 중 적어도 하나는 연관되는 DP(10A)에 의해 실행될 때, 장치(10)가 예로 상술한 바와 같이, 본 발명의 예시적인 실시예들에 따라 동작할 수 있도록 하는 프로그램 명령어들을 포함하는 것으로 가정된다. 하나의 그와 같은 프로그램은 블록(10D)에 도시된 바와 같은 그리고 MEM(10B)에 또한 저장되는 다중 레벨 추출 및 히스토그램 생성 알고리즘이다. 그러므로 본 발명의 예시적인 실시예들은 적어도 부분적으로 UE(10)의 DP(10A)에 의해 또는 소프트웨어 및 하드웨어(및 펌웨어)의 결합에 의해 실행 가능한 컴퓨터 소프트웨어에 의해 구현될 수 있다.
대표적인 호스트 디바이스들은 모바일 단말기들/스마트폰들이 다른 전자 디바이스들과 무선으로 통신하는 능력을 가진 것과 같은 그러한 능력을 가질 필요가 없다.
컴퓨터 판독 가능 메모리는 국지적인 기술 환경에 적합한 임의의 유형으로 이루어질 수 있고 반도체 기반 메모리 디바이스들, 플래시 메모리, 자기 메모리 디바이스들 및 시스템들, 광 메모리 디바이스들 및 시스템들, 고정 메모리 및 제거 가능 메모리와 같은 임의의 적절한 데이터 저장 기술을 사용하여 구현될 수 있다. DP(10A)는 국지적인 기술 환경에 적합한 임의의 유형으로 이루어질 수 있고, 비제한적인 예들로서, 범용 컴퓨터들, 특수 목적 컴퓨터들, 주문형 반도체(application specific integrated circuit)들, 독출 집적 회로(read-out integrated circuit)들, 마이크로프로세서들, 디지털 신호 프로세서(digital signal processor; DSP)들 및 이중/다중-코어 프로세서 아키텍처에 기반하는 프로세서들 중 하나 이상을 포함할 수 있다.
도 7은 본 발명의 예시적인 실시예들에 따라, 컴퓨터 프로그램 명령어들을 실행하는 방법의 동작 및 결과를 도시하는 논리 흐름도이다. 이 예시적인 실시예들에 따르면, 블록 702은 디지털 이미지를 다중 레벨 이미지로 변환하고 다중 레벨 이미지의 연결 요소들로부터 다수의 스케일 세트들을 형성하는 초기 단계를 제공하고 여기서 공간 세트들의 상이한 세트들은 상이한 크기 공간 빈들을 정의한다. 그리고 나서 블록 704에서 스케일 세트당 프로세싱되는, 즉 다수의 스케일 세트들의 각각의 스케일 세트마다 각 공간 빈들에 대한 각각의 레벨로부터 추출되는 연결 요소들의 카운트가 생성되고, 또한 각 스케일 세트마다 연결 요소들을 나타내는 인접하는 공간 빈들이 링크된다. 그리고 나서 블록 705은 상이한 스케일 세트들로부터의 연결 요소들이 병합된 후에 병합된 연결 요소들에 대해 텍스트 라인 검출이 수행되는 것을 더 추가한다.
도 7의 부가 부분들은 다양한 더 특정한 실시예들을 요약한다. 블록 706은 다수의 스케일 세트들의 각 스케일 세트마다 각각의 공간 빈에 대한 요소들의 카운트가 히스토그램을 포함하는 것을 상세히 설명하고 추가적으로 인접하는 공간 빈들을 링크하기 전에 그리고 히스토그램을 작성한 후에, 다수의 스케일 세트들의 각각의 스케일 세트마다, 카운트가 사전결정된 값보다 더 적은 모든 공간 빈들이 필터링되는 것을 나타낸다. 블록 708은 상기 예들로부터 두 특정예들을 제공한다: 각각의 히스토그램은 임의의 다른 히스토그램과 상이한 크기 빈을 정의하고 각각의 히스토그램은 동일한 크기 빈들을 정의하는 적어도 2개의 중첩하는 그리드들을 포함한다.
블록 710은 다수의 스케일 세트들의 각각의 스케일 세트마다, 히스토그램을 생성한 후에, 이 히스토그램이 각각의 공간 빈에 수직 및 수평으로 인접하는 공간 빈들로부터의 카운트를 추가함으로써 확장되고 이후에 단일 영역들을 포함하는 공간 빈들이 필터링되는 것을 추가로 상세히 설명한다. 이 경우에 필터링 이후에, 블록 704에서 언급된 인접하는 공간 빈들의 링크가 확장된 히스토그램에 대하여 수행된다. 블록 712는 사전결정된 문턱값보다 더 적은 카운트를 가지는 모든 공간 빈들에 대한 블록 706의 필터링이 블록 710에서 언급된 확장 히스토그램에 대하여 행해지는 것을 더 상세하게 설명한다.
상술하였으나 도 7에서 요약되지 않는 바와 같이, 이웃하는 빈들을 링크할 때 또는 잘못된 텍스트 문자 후보들을 필터링하기 위해 텍스트 검출을 수행할 때 텍스트 스트로크 폭을 테스트함으로써; 그리고/또는 문자들의 크기를 비교하고 기저의 문자들이 유사한 크기로 되어있는 경우 인접하는 공간 빈들을 링크함으로써 성능이 개선될 수 있다. 상기 예가 최대 안정 극 영역(MSEF)들을 사용하여 각각의 다중 레벨로부터 요소들을 추출했을지라도, 이진화(적응형 이진화를 포함하는) 또는 이 목적을 위해 사용될 수 있다.
도 7에 도시된 다양한 블록들 및 바로 위의 더 상세한 구현들은 방법 단계들로서 그리고/또는 컴퓨터 프로그램 코드의 동작의 결과인 동작들로서 그리고 또는 연관되는 기능(들)을 수행하는 것으로 구조화되는 복수의 결합 논리 회로 요소들로서 간주될 수 있다.
일반적으로, 다양한 예시적인 실시예들은 하드웨어 또는 특수 목적 회로들, 소프트웨어, 로직 또는 이들의 임의의 결합으로 구현될 수 있다. 예를 들어, 일부 양태들은 하드웨어에서 구현될 수 있는데 반해, 다른 양태들은 제어기, 마이크로프로세서 또는 다른 컴퓨팅 디바이스에 의해 실행될 수 있는 펌웨어 또는 소프트웨어에서 구현될 수 있으나, 본 발명은 이로 제한되지 않는다. 본 발명의 예시적인 실시예들의 다양한 양태들이 블록도들, 흐름도들로서, 또는 일부 다른 그림 표현을 이용하여 도시되고 기술될지라도, 본원에서 기술된 이 블록들, 장치들, 시스템들, 기술들 또는 방법들은 비제한적인 예들로서, 하드웨어, 소프트웨어, 펌웨어, 특수 목적 회로들 또는 로직, 범용 하드웨어 또는 제어기 또는 다른 컴퓨팅 디바이스들, 또는 이들의 어떤 결합에서 구현될 수 있음이 충분히 이해된다.
본 발명의 상기 예시적인 실시예들에 대한 다양한 수정들 및 적응들은 상술한 설명을 고려하여 첨부 도면들과 함께 판독될 때, 당업자에에 명백해질 수 있다. 그러나, 임의의 그리고 모든 수정들은 여전히 본 발명의 비제한적이고 예시적인 실시예들의 범위 내에 해당할 것이다.
더욱이, 본 발명의 다양한 비제한적이고 예시적인 실시예들의 특징들 중 일부는 다른 특징들의 대응하는 사용 없이도 유리하게 사용될 수 있다. 이와 같이, 상술한 설명은 단지 본 발명의 원리들, 내용들 및 예시적인 실시예들로서 간주되어야 하고 이들을 제한하는 것으로 해석되어서는 안 된다.

Claims (20)

  1. 장치로서,
    적어도 하나의 프로세서와,
    컴퓨터 프로그램 코드를 포함하는 적어도 하나의 메모리를 포함하고,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서와 함께, 상기 장치로 하여금 적어도,
    디지털 이미지를 다중 레벨 이미지로 변환하게 하고,
    상기 다중 레벨 이미지의 연결 요소들로부터 다수의 스케일 세트(scale set)들을 형성하게 하고―상기 스케일 세트들 중 상이한 세트는 상이한 크기 공간 빈(bin)들을 정의함―,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다,
    각각의 스케일 세트로부터 추출되는 연결 요소들의 카운트(count)를 각각의 공간 빈에 대해 생성하게 하고,
    연결 요소들을 나타내는 인접하는 공간 빈들을 링크하게 하고,
    상기 상이한 스케일 세트들로부터의 연결 요소들을 병합(merge)하게 하고,
    상기 병합된 연결 요소들에 대해 텍스트 라인 검출을 수행하게 하도록 구성되는
    장치.
  2. 제 1 항에 있어서,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다 각각의 공간 빈에 대한 요소들의 카운트는 히스토그램을 포함하고,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서와 함께, 상기 장치로 하여금 적어도 추가로,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다, 상기 히스토그램을 생성한 후에 그리고 상기 인접하는 공간 빈들을 링크하기 전에 상기 카운트가 사전결정된 값보다 더 작은 모든 공간 빈들을 필터링하게 하도록 구성되는
    장치.
  3. 제 2 항에 있어서,
    각각의 히스토그램은 임의의 다른 히스토그램과 상이한 크기 빈을 정의하는
    장치.
  4. 제 3 항에 있어서,
    각각의 히스토그램은 동일한 크기 빈들을 정의하는 적어도 2개의 중첩하는 그리드(grid)들을 포함하는
    장치.
  5. 제 2 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금 적어도 추가로,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다, 상기 히스토그램을 생성한 후에, 수직 및 수평으로 인접한 공간 빈들로부터의 카운트를 각각의 공간 빈으로 가산함으로써 상기 히스토그램을 확장하게 하고, 그 후에
    단일 영역들을 포함하는 공간 빈들을 필터링하게 하도록 구성되고,
    상기 인접 공간 빈들을 링크하는 것은 상기 필터링 이후에 상기 확장 히스토그램에 대하여 수행되는
    장치.
  6. 제 5 항에 있어서,
    상기 사전결정된 문턱값보다 더 적은 카운트를 가지는 모든 공간 빈들은 상기 확장 히스토그램으로부터 필터링되는
    장치.
  7. 제 6 항에 있어서,
    상기 적어도 하나의 메모리 및 상기 컴퓨터 프로그램 코드는 상기 적어도 하나의 프로세서와 함께 상기 장치로 하여금,
    거짓(false) 텍스트 문자 후보들을 필터링하기 위하여 텍스트 라인 검출을 수행할 때 또는 인접한 빈들을 링크할 때 텍스트 스트로크(text stroke) 폭을 테스트하게 하는 것과,
    문자들의 크기를 비교하고 기저(underlying)의 문자들이 유사한 크기로 되어 있는 경우에만 인접한 공간 빈들을 링크하게 하도록 구성되는 것
    중 적어도 하나를 더 수행하도록 구성되는
    장치.
  8. 제 1 항에 있어서,
    상기 요소들은 최대 안정 극 영역(maximally stable extremal region)들 또는 이진화(binarization)를 사용하여 각각의 다중 레벨로부터 추출되는
    장치.
  9. 디지털 이미지를 다중 레벨 이미지로 변환하는 단계와,
    적어도 하나의 프로세서에 의해 상기 다중 레벨 이미지의 연결 요소들로부터 다수의 스케일 세트들을 형성하는 단계―상기 스케일 세트들의 상이한 스케일 세트들은 상이한 크기 공간 빈들을 정의함―와,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다,
    상기 각각의 스케일 세트로부터 추출되는 연결 요소들의 카운트를 각각의 공간 빈들에 대해 생성하고,
    연결 요소들을 나타내는 인접 공간 빈들을 링크하는 단계와,
    상기 상이한 스케일 세트들로부터의 연결 요소들을 병합하는 단계와,
    상기 병합된 연결 요소들에 대하여 텍스트 라인 검출을 수행하는 단계를 포함하는
    방법.
  10. 제 9 항에 있어서,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다, 각각의 공간 빈에 대한 연결 요소들의 카운트는 히스토그램을 포함하고,
    상기 방법은,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다, 상기 히스토그램을 생성한 후에 그리고 상기 인접하는 공간 빈들을 링크하기 전에, 상기 카운트가 사전결정된 값보다 더 작은 모든 공간 빈들을 필터링하는 단계를 더 포함하는
    방법.
  11. 제 10 항에 있어서,
    각각의 히스토그램은 임의의 다른 히스토그램과 상이한 크기 빈을 정의하는
    방법
  12. 제 11 항에 있어서,
    각각의 히스토그램은 동일한 크기 빈들을 정의하는 적어도 2개의 중첩하는 그리드들을 포함하는
    방법.
  13. 제 10 항에 있어서,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다, 상기 히스토그램을 생성한 후에, 수직 및 수평으로 인접하는 공간 빈들로부터의 카운트를 각각의 공간 빈들에 더함으로써 상기 히스토그램을 확장하는 단계와, 그 후에
    단일 영역들을 포함하는 공간 빈들을 필터링하는 단계를 더 포함하고,
    상기 인접하는 공간 빈들을 링크하는 것은 상기 필터링하는 단계 이후에 상기 확장 히스토그램에 대해 수행되는
    방법.
  14. 제 13 항에 있어서,
    상기 사전결정된 문턱값보다 더 적은 카운트를 가지는 모든 공간 빈들이 상기 확장 히스토그램으로부터 필터링되는
    방법.
  15. 제 14 항에 있어서,
    상기 방법은,
    거짓 텍스트 문자 후보들을 필터링하기 위해 텍스트 라인 검출을 수행할 때 또는 이웃하는 빈들을 링크할 때 텍스트 스트로크 폭을 테스트하는 단계와,
    문자들의 크기를 비교하고 기저의 문자들이 유사한 크기로 되어 있는 경우 단지 인접하는 공간 빈들을 링크하는 단계
    중 적어도 하나를 더 포함하는
    방법.

  16. 제 9 항에 있어서,
    상기 요소들은 최대 안정 극 영역들 또는 이진화를 사용하여 각각의 다중 레벨로부터 추출되는
    방법.
  17. 명령어들의 프로그램을 저장하는 컴퓨터 판독 가능 메모리로서, 상기 명령어들의 프로그램은
    디지털 이미지를 다중 레벨 이미지로 변환하는 코드와,
    상기 다중 레벨 이미지의 연결 요소들로부터 다수의 스케일 세트들을 형성하는 코드―상기 스케일 세트들의 상이한 스케일 세트들은 상이한 크기 공간 빈들을 정의함―와,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다,
    상기 각각의 스케일 세트로부터 추출되는 연결 요소들의 카운트를 각각의 공간 빈에 대해 생성하는 코드와,
    연결 요소들을 나타내는 인접하는 공간 빈들을 링크하는 코드와,
    상기 상이한 스케일 세트들로부터의 연결 요소들을 병합하는 코드와,
    상기 병합된 연결 요소들에 대해 텍스트 라인 검출을 수행하는 코드를 포함하는
    컴퓨터 판독 가능 메모리.
  18. 제 17 항에 있어서,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다, 상기 히스토그램이 생성된 후에 그리고 상기 인접하는 공간 빈들을 링크하기 전에, 상기 카운트가 사전결정된 값보다 더 작은 모든 공간 빈들을 필터링하는 코드를 더 포함하는
    컴퓨터 판독 가능 메모리.
  19. 제 18 항에 있어서,
    상기 다수의 스케일 세트들의 각각의 스케일 세트마다, 상기 히스토그램이 생성된 후에, 수직 및 수평으로 인접하는 공간 빈들로부터의 카운트를 각각의 공간 빈에 가산함으로써 상기 히스토그램을 확장하는 코드와, 그 후에
    단일 영역들을 포함하는 공간 빈들을 필터링하는 코드를 더 포함하고,
    링크되는 상기 인접하는 공간 빈들은 상기 필터링 이후에 상기 확장된 히스토그램으로부터 기인되는
    컴퓨터 판독 가능 메모리.

  20. 제 19 항에 있어서,
    상기 사전결정된 문턱값보다 더 작은 카운트를 가지는 모든 공간 빈들은 상기 확장된 히스토그램으로부터 필터링되는
    컴퓨터 판독 가능 메모리.
KR1020147016856A 2011-11-21 2012-10-17 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출 KR101617681B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/301,103 2011-11-21
US13/301,103 US8611662B2 (en) 2011-11-21 2011-11-21 Text detection using multi-layer connected components with histograms
PCT/FI2012/050994 WO2013076358A1 (en) 2011-11-21 2012-10-17 Text detection using multi-layer connected components with histograms

Publications (2)

Publication Number Publication Date
KR20140091762A true KR20140091762A (ko) 2014-07-22
KR101617681B1 KR101617681B1 (ko) 2016-05-11

Family

ID=48427024

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147016856A KR101617681B1 (ko) 2011-11-21 2012-10-17 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출

Country Status (7)

Country Link
US (1) US8611662B2 (ko)
EP (1) EP2783328B1 (ko)
JP (1) JP5775225B2 (ko)
KR (1) KR101617681B1 (ko)
CN (1) CN103946866B (ko)
IN (1) IN2014CN04624A (ko)
WO (1) WO2013076358A1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731296B2 (en) * 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
US20130194448A1 (en) 2012-01-26 2013-08-01 Qualcomm Incorporated Rules for merging blocks of connected components in natural images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9047528B1 (en) * 2013-02-19 2015-06-02 Amazon Technologies, Inc. Identifying characters in grid-based text
US9928572B1 (en) 2013-12-20 2018-03-27 Amazon Technologies, Inc. Label orientation
US9460357B2 (en) * 2014-01-08 2016-10-04 Qualcomm Incorporated Processing text images with shadows
US9858304B2 (en) * 2014-04-15 2018-01-02 Raytheon Company Computing cross-correlations for sparse data
US9183636B1 (en) * 2014-04-16 2015-11-10 I.R.I.S. Line segmentation method
CN104182750B (zh) * 2014-07-14 2017-08-01 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
US10423858B2 (en) 2014-07-21 2019-09-24 Ent. Services Development Corporation Lp Radial histogram matching
US9235757B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Fast text detection
CN104766095A (zh) * 2015-04-16 2015-07-08 成都汇智远景科技有限公司 一种移动终端图像识别方法
CN104751147A (zh) * 2015-04-16 2015-07-01 成都汇智远景科技有限公司 一种图像识别方法
US9471990B1 (en) * 2015-10-20 2016-10-18 Interra Systems, Inc. Systems and methods for detection of burnt-in text in a video
US10083353B2 (en) * 2016-10-28 2018-09-25 Intuit Inc. Identifying document forms using digital fingerprints
CN107688806B (zh) * 2017-08-21 2021-04-20 西北工业大学 一种基于仿射变换的自由场景文本检测方法
CN108985288B (zh) * 2018-07-17 2022-06-14 电子科技大学 一种基于TGMSERs的SAR图像溢油检测方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6413687A (en) * 1987-07-07 1989-01-18 Nec Corp System for detecting character row
US5920655A (en) 1995-02-10 1999-07-06 Canon Kabushiki Kaisha Binarization image processing for multi-level image data
JP3868654B2 (ja) * 1998-03-27 2007-01-17 株式会社リコー 画像処理装置
JP4418726B2 (ja) * 2004-10-01 2010-02-24 日本電信電話株式会社 文字列探索装置、探索方法およびこの方法のプログラム
US7570816B2 (en) 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
CN100565559C (zh) * 2007-03-14 2009-12-02 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
CN101615252B (zh) * 2008-06-25 2012-07-04 中国科学院自动化研究所 一种自适应图像文本信息提取方法
US8189917B2 (en) 2008-09-25 2012-05-29 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
CN102163284B (zh) * 2011-04-11 2013-02-27 西安电子科技大学 面向中文环境的复杂场景文本定位方法

Also Published As

Publication number Publication date
EP2783328B1 (en) 2018-08-22
US8611662B2 (en) 2013-12-17
CN103946866B (zh) 2018-06-01
CN103946866A (zh) 2014-07-23
WO2013076358A1 (en) 2013-05-30
IN2014CN04624A (ko) 2015-09-18
JP5775225B2 (ja) 2015-09-09
KR101617681B1 (ko) 2016-05-11
JP2014531097A (ja) 2014-11-20
EP2783328A1 (en) 2014-10-01
US20130129216A1 (en) 2013-05-23
EP2783328A4 (en) 2016-09-28

Similar Documents

Publication Publication Date Title
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
CN109918987B (zh) 一种视频字幕关键词识别方法及装置
US9053361B2 (en) Identifying regions of text to merge in a natural image or video frame
US9076056B2 (en) Text detection in natural images
CN104871180A (zh) 用于ocr的基于文本图像质量的反馈
EP3114687B1 (en) Method and device for processing a picture
CN107845068B (zh) 图像视角变换装置以及方法
KR101742115B1 (ko) 건물 인식을 위한 멀티뷰 영상에서의 인라이어 선택 및 잉여 제거 방법
Giri Text information extraction and analysis from images using digital image processing techniques
CN112686122A (zh) 人体及影子的检测方法、装置、电子设备、存储介质
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
Arai et al. Text extraction from TV commercial using blob extraction method
Arai et al. Method for extracting product information from TV commercial
Hu et al. Video text detection with text edges and convolutional neural network
Soumya et al. Text extraction from images: a survey
Escalera et al. Text detection in urban scenes
Yang et al. A skeleton based binarization approach for video text recognition
Chazalon et al. Improving document matching performance by local descriptor filtering
Nor et al. A new visual signature for content-based indexing of low resolution documents
Shabana et al. TEXT DETECTION AND RECOGNITION IN NATURAL IMAGES
Singh et al. A Robust and Real Time Approach for Scene Text Localisation and Recognition in Image Processing
Hammad Image quality and forgery detection copula-based algorithms
Mehta et al. Towards visual words to words
CN117218672A (zh) 一种基于深度学习的病案文字识别方法及系统
JP4594765B2 (ja) 文字認識装置、文字認識方法、及び文字認識プログラムの記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
N231 Notification of change of applicant
FPAY Annual fee payment

Payment date: 20190328

Year of fee payment: 4