KR20170092476A

KR20170092476A - 이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체

Info

Publication number: KR20170092476A
Application number: KR1020170015453A
Authority: KR
Inventors: 조호진
Original assignee: 주식회사 스트라드비젼
Priority date: 2016-02-03
Filing date: 2017-02-03
Publication date: 2017-08-11
Also published as: JP6188976B2; EP3203417B1; KR101782589B1; EP3203417A2; EP3203417C0; CN107038409B; EP3203417A3; JP2017138989A; US9524430B1; CN107038409A

Abstract

본 발명의 일 태양에 따르면, 이미지에 포함된 텍스트를 검출하는 방법에 있어서, (a) 입력 이미지가 획득되면, 장치가, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하는 단계, (b) 상기 장치가, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하는 단계, 및 (c) 상기 장치가, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 단계를 포함하는 방법이 제공된다.

Description

이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체{METHOD FOR DETECTING TEXTS INCLUDED IN AN IMAGE AND APPARATUS USING THE SAME}

본 발명은, 이미지에 포함된 텍스트를 검출하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것으로, 좀더 상세하게는, 입력 이미지가 획득되면, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하는 프로세스, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하는 프로세스 및 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 프로세스를 포함하는 방법, 장치 및 컴퓨터 판독 가능한 기록매체에 관한 것이다.

이미지 내의 텍스트는 유의미한 정보를 제공하는 경우가 많으므로 장면 텍스트(Scene Text)를 검출하고 인식하는 것은 이미지 및 비디오 검색(image and video retrieval), 다국어 번역기, automotive assistance와 같은 다양한 컴퓨터 비전 애플리케이션에서 중요하게 여겨져 왔다.

장면 텍스트 검출 알고리즘(Scene text detection algorithm)은 이미지 상에서 텍스트(캐릭터)를 검출하기 위한 알고리즘으로, 텍스트 후보 추출 방법에 따라 크게 sliding window 방식과 connected component analysis 방식으로 나뉠 수 있다.

sliding window 방식은 window를 이미지의 모든 위치에서 복수의 스케일로 시프팅시켜 장면 이미지의 텍스트를 검출하는 기술이다. 이 기술은 입력 이미지에 대해 철저한 검색이 이루어지므로 얼마나 많은 텍스트 영역이 검출되는지를 나타내는 recall rate이 높은 장점이 있다. 반면, 철저한 window 스캐닝으로 인해 많은 계산량을 피할 수 없고, 많은 수의 텍스트 후보가 많은 양의 false positive를 초래할 수 있다. 따라서, real-time 애플리케이션에는 부적합하다. sliding window 방식은 X. Chen and A. L. Yuille. Detecting and reading text in natural scenes. In Proc. CVPR 2004, pages 366-373, 2004 등에서 소개된 바 있다.

이처럼 sliding window 방식이 많은 계산량을 요하므로 근래에는 connected component analysis 방식이 많이 사용되는 추세이다. connected component analysis 방식은 입력 이미지로부터 유사한 텍스트 특성을 공유하는 픽셀의 집합인 텍스트 후보를 추출하고 non-text 후보를 억제(suppression)하기 위해 텍스트 후보들을 정제하는 작업을 수행한다. stroke width transform(SWT)와 maximally stable extremal region(MSER)은 connected component analysis의 대표적인 기술이다. 이 방법들은 장면 텍스트 검출에서 최첨단의 성능을 제공한다. connected component analysis 방식은 B. Epshtein, E. Ofek, and Y.Wexler. Detecting text in natural scenes with stroke width transform. In Proc. CVPR 2010, pages 2963-2970, 2010 등에서 소개된 바 있다.

그러나, connected component analysis 방식에서 텍스트 후보를 정제하는데 사용되는 일반적인 constraints는 여러 true text를 검출하는데 제한적으로 평가되며 결과적으로 낮은 recall rate을 나타내는 한계가 있다.

따라서, 이미지에서 텍스트 검출시 최적의 성능을 내면서도 높은 recall rate을 가질 수 있는 텍스트 검출 기술이 요청되고 있다.

본 발명은 상술한 문제점들을 모두 해결하는 것을 그 목적으로 한다.

또한, 본 발명은 최적의 성능을 내면서도 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 것을 다른 목적으로 한다.

또한, 본 발명은 multiple threshold를 이용하여 텍스트 후보를 strong text, weak text, non-text로 분류함으로써 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 것을 또 다른 목적으로 한다.

또한, 본 발명은 텍스트 후보가 strong text와 weak text로 분류된 후, strong text와 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 참조로 하여 weak text를 strong text로 편입시킴으로써 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 것을 또 다른 목적으로 한다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

본 발명의 다른 태양에 따르면, 이미지에 포함된 텍스트를 검출하는 장치에 있어서, 이미지를 획득하는 통신부, 및 상기 이미지가 획득되면, (i) 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고, (ii) 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하며, (iii) 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 프로세서를 포함하는 장치가 제공된다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 장치 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 다음과 같은 효과가 있다.

본 발명은 최적의 성능을 내면서도 높은 recall rate을 가질 수 있는 텍스트 검출 기술을 제공하는 효과가 있다.

또한, 본 발명은 multiple threshold를 이용하여 텍스트 후보를 strong text, weak text, non-text로 분류함으로써 텍스트 검출시 높은 recall rate을 달성할 수 있는 효과가 있다.

또한, 본 발명은 텍스트 후보가 strong text와 weak text로 분류된 후, strong text와 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 등과 같은 관련 정보를 참조로 하여 weak text를 strong text로 편입시킴으로써 텍스트 검출시 높은 recall rate을 달성할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치의 구성을 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 따른 장치가 이미지에 포함된 텍스트를 검출하는 과정을 도시한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 ER 트리의 예를 도시한 도면이다.
도 4는 MLBP 변환의 예를 도시한 도면이다.
도 5는 본 발명에 따른 텍스트 검출 기법을 사용하여 예시 이미지에서 텍스트를 검출하는 경우 각 과정에서 중간 결과를 나타내는 도면이다.
도 6 내지 8은 다른 텍스트 검출 기술과 본 발명의 성능을 비교 실험한 결과를 나타내는 도면이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

본 발명은 다음의 기준(criteria)이 고려된 텍스트 검출 기술을 제안한다. 본 발명자는 하기 기준을 만족하는 본 발명에 따른 검출기를 Canny Text Detector라고 명명한다. 각 기준을 만족하기 위한 본 발명의 구성에 대해서는 해당 구성에 대한 설명에서 자세히 언급될 것이다.

1. Recall : 가능한 많은 텍스트 영역이 검출되어야 한다.

2. Precision : 검출 결과는 non-text 영역을 포함하지 않아야 한다.

3. Uniqueness : 검출된 텍스트는 한번만 표시(mark)되어야 한다.

4. Compactness : 검출된 영역(바운딩 박스)은 extra margin을 최소화하도록 텍스트 영역을 포함해야 한다.

이하에서는 상기 기준을 만족하는 본 발명의 다양한 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치 및 방법에 대해서 상세하게 설명한다.

도 1은 본 발명의 일 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치의 구성을 도시한 블록도이고, 도 2는 본 발명의 일 실시예에 따른 장치가 이미지에 포함된 텍스트를 검출하는 과정을 도시한 흐름도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 이미지에 포함된 텍스트를 검출하는 장치(100)는 통신부(110), 프로세서(120) 및 저장부(130)를 포함한다.

통신부(110)는 외부 장치와 데이터를 송수신하거나 내부 구성 요소 간에 데이터를 송수신하는 구성이다. 특히, 통신부(110)는 텍스트 검출을 위한 입력 이미지를 획득할 수 있다(S210).

프로세서(120)는 각종 데이터의 연산을 수행하는 구성이다. 우선, 프로세서(120)는, 상기 입력 이미지가 획득되면, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원할 수 있다(S220).

이때, 프로세서(120)는, 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 클 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원할 수 있다. 이는 다음의 수학식으로 표현될 수 있다.

<수학식 1>

여기서, x와 y는 single channel 이미지 I에 대한 픽셀 인덱스이고, t는 텍스트 후보 영역을 추출하기 위해 사용되는 threshold 값이고, B(R _t )는 R _t 의 경계 영역 픽셀의 집합이다. 물론, 반대의 경우로서, 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 작을 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원할 수도 있다.

한편, 다음으로, ERs(Extremal Regions)를 이용하여 ER 트리를 구성할 수도 있다. 즉, 프로세서(120)는, 상기 소정의 영역의 픽셀 intensity 레벨을 변경하면서 상기 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원할 수 있고, 상기 검출된 적어도 하나의 텍스트 후보에서, (i) 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 큰 하위 레벨 텍스트 후보와 (ii) 상기 하위 레벨 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은 상위 레벨 텍스트 후보 중 상기 소정의 영역의 픽셀 intensity 레벨이 가장 큰 텍스트 후보를, 각각 자식 노드와 부모 노드에 할당하여 트리를 구성하거나 구성하도록 지원할 수 있다.

도 3은 본 발명의 일 실시예에 따른 ER 트리의 예를 도시한 도면이다.

도 3에 도시된 예에서, intensity 레벨이 136인 텍스트 후보와, 상기 intensity 레벨이 136인 텍스트 후보의 영역을 포함하고 intensity 레벨이 133인 텍스트 후보가 각각 ER트리의 자식 노드와 부모 노드에 할당되어 있음을 알 수 있다.

다음으로, 프로세서(120)는, Multiple Threshold Classification을 수행하거나 수행하도록 지원할 수 있다(S240). 즉, 프로세서(120)는, 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원할 수 있다. 가령, 프로세서(120)는, AdaBoost 알고리즘으로 트레이닝된 분류기를 이용하여 상기 검출된 텍스트 후보를 분류하거나 분류하도록 지원할 수 있다.

여기서, 상기 검출된 텍스트 후보가 포함되는 영역은, extra margin을 최소화하면서 상기 검출된 텍스트 후보를 포함하는 바운딩 박스(bounding box) 영역일 수 있다.

또한, strong text는 검출된 텍스트 후보가 실제로 텍스트일 가능성이 상대적으로 높은 텍스트 후보를 의미한다. 반면, weak text는 검출된 텍스트 후보가 실제로 텍스트일 가능성이 strong text 보다는 상대적으로 낮은 텍스트 후보를 말하며, non-text는 검출된 텍스트 후보가 실제로 텍스트일 가능성이 매우 낮은 텍스트 후보를 말한다.

또한, 제1 임계값은 high threshold 값일 수 있고, 제2 임계값은 low threshold 값일 수 있다. 상이한 임계값은 상이한 정확성을 만족시킬 수 있는데, 예를 들어, 제1 임계값은 99%의 정확성을, 제2 임계값은 90%의 정확성을 만족시킬 수 있다. 이처럼 제2 임계값은 제1 임계값에 비해 낮은 정확성을 보일 수 있으나 상대적으로 높은 recall rate을 나타낼 수 있다.

또한, 프로세서(120)는, 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀의 피처값을 MLBP(Mean Local Binary Pattern)로 변환한 값을 참조로 하여 상기 분류 작업을 수행하거나 수행하도록 지원할 수 있다.

도 4는 MLBP 변환의 예를 도시한 도면이다.

도 4를 참조하면, 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀을 둘러싸는 8개의 이웃 픽셀(3X3 패치 내의 이웃 픽셀)의 평균값이 먼저 계산된다. 그리고, 중앙의 선택된 픽셀을 제외한 나머지 8개의 이웃 픽셀과 상기 계산된 평균값이 비교되어 특정 이웃 픽셀의 값이 평균값보다 크면 해당 이웃 픽셀에 1이 할당되고 작으면 0이 할당된다. 그리고, 좌측 상단의 이웃 픽셀부터 시계방향으로 새롭게 할당된 값이 읽혀져 8개의 비트로 이루어진 2진수로 인코딩된다. 도 4에 도시된 예에서 MLBP 값은 2진수 00110101₍₂₎임을 알 수 있다. 그러나, 본 발명에서 사용될 수 있는 피처(feature)가 MLBP에 한정되는 것은 아니고, 다양한 다른 피처가 사용될 수 있다고 할 것이다.

한편, 텍스트 후보가 두 단계를 거쳐 두 개의 임계값과 비교되어 분류될 수도 있으나(이를 double threshold classification이라 하기로 한다.) 두 단계 이상을 거쳐 분류가 이루어질 수도 있다. 즉, 상기 제1 임계값과 상기 제2 임계값의 사이에 적어도 하나의 중간 임계값이 있을 수 있고, 이 경우, 프로세서(120)는, (ii-1) non-strong text로 분류된 텍스트 후보를 상기 중간 임계값과 비교하여 상기 strong text 또는 차순위 weak text로 분류하거나 분류하도록 지원하고, (ii-2) 상기 차순위 weak text를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원할 수 있다.

한편, 프로세서(120)는, Multiple Threshold Classification을 수행하기에 앞서 Non-Maximum Suppression을 수행하거나 수행하도록 지원할 수도 있다(S230).

즉, 검출된 텍스트 후보가 복수 개일 때, 프로세서(120)는, 상기 검출된 복수의 텍스트 후보가 포함되는 영역이 소정 비율 이상 서로 겹치는 텍스트 후보를 포함하는 적어도 하나의 텍스트 후보 세트를 식별하고, 식별된 각 텍스트 후보 세트에 대하여 소정의 조건을 만족하는 텍스트 후보를 선택하거나 선택하도록 지원할 수 있다. 이 경우, 프로세서(120)는, 상기 소정의 조건을 만족하는 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원할 수 있다.

상기와 같이 텍스트 후보가 포함되는 영역들이 상호 겹치는 경우는 MSERs(Maximally Stable Extremal Region)와 ERs에서 종종 나타난다. ER 트리의 경우 Uniqueness 기준을 보장하기 위해 반복되는 ER(노드)을 억제하고 최대 stability를 갖는 하나의 ER만을 선택할 수 있다.

ER 트리를 구성한 경우 Non-Maximum Suppression 과정을 좀더 구체적으로 설명하면, (a) 전술한 ER 트리에서 특정 노드에 대하여 상기 특정 노드에 대응되는 텍스트 후보가 포함되는 영역과, 상기 특정 노드에 대응되는 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은, 조상 노드에 대응되는 텍스트 후보가 포함되는 영역이 소정 비율 이상 겹치는 경우가 소정 회수 이상인 경우, (b) 프로세서(120)는, 자신의 특정 조상 노드 대비 텍스트 후보가 포함되는 영역의 변화량이 상대적으로 가장 작은 노드에 대응되는 텍스트 후보를 선택하거나 선택하도록 지원할 수 있다.

(a)의 판단은 하기의 수식이 사용될 수 있다.

<수학식 2>

여기서, R _t _-k 는 ER 트리에서 R _t 의 부모 노드를 가리킨다. |R|은 R의 바운딩 박스 영역(텍스트 후보가 포함되는 영역)을 가리킨다.

예를 들어, O(R _t _-k , R _t ) > 0.7인 경우가 5번 이상인 경우 (b)가 수행될 수 있다. (b)는 stability가 가장 큰 ER이 선택되는 것으로 표현될 수 있는데, stability는 다음의 수식으로 표현될 수 있다.

<수학식 3>

가령, 수학식 2에서 k=2로 설정될 수 있다. 이 경우, stability는 특정 노드와 특정 노드의 조부모 노드에 대해 고려될 수 있다.

참고로, stability가 동일한 ER이 두 개 이상인 경우, ER의 영역(바운딩 박스 영역)이 최소인 것이 선택될 수 있다. 이를 통해 Uniqueness와 Compactness 기준을 만족할 수 있다.

또한, R _t 에서 겹쳐지는 횟수가 3보다 크고 R _t 가 non-maximum constraints에 의해 제거되지 않으면 R _t 는 텍스트 후보로 고려될 수 있다. 그러나, 텍스트 후보가 지나치게 크거나 작은 aspect ratio를 가지는 경우 그러한 텍스트 후보는 제거될 수 있다.

상기의 경우, 프로세서(120)는 상기 선택된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원할 수 있다.

다시 도 2를 참조하면, 프로세서(120)는, Hysteresis를 고려하여 text tracking을 수행하거나 수행하도록 지원할 수 있다(S250). 즉, 프로세서(120)는, 상기와 같이 분류된 strong text와 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단할 수 있다. 좀더 구체적으로, 프로세서(120)는, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 또는 non-text로 분류하거나 분류하도록 지원할 수 있다.

앞서 살펴본 바와 같이 strong text로 분류된 텍스트 후보는 실제로 text일 가능성이 높다. 그러나, weak text로 분류된 텍스트 후보의 경우도 실제로 텍스트일 가능성이 있다. 따라서, 본 발명은 weak text의 경우 strong text와 특징이 유사한 경우 strong text로 편입시킨다. 즉, strong text의 이웃에서 weak text로 분류된 텍스트 후보를 찾고, 이러한 텍스트 후보가 strong text와 유사한 특징을 가지는 경우 weak text를 strong text로 변환한다. 이를 통해 높은 recall rate을 달성할 수 있다.

strong text와 weak text가 유사한 특징이 있는지 판단하기 위해 고려되는 strong text와 weak text의 관련 정보는 상기 strong text와 상기 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 포함할 수 있다.

다음으로, 프로세서(120)는, 상기 제1 임계값과 비교하여 분류된 strong text 및 상기 weak text로부터 편입된 strong text를 그룹핑하거나 그룹핑하도록 지원할 수 있다(S260).

또한, 제1 strong text 및 이에 이웃한 제1 weak text로부터 편입된 제2 strong text가 그룹핑되고 상기 제2 strong text 및 이에 이웃한 제2 weak text의 관련 정보를 참조로 하여 상기 제2 weak text가 제3 strong text로 분류되면, 프로세서(120)는, 상기 제3 strong text를 상기 제1 strong text 및 상기 제2 strong text와 함께 그룹핑하거나 그룹핑하도록 지원할 수 있다. 이처럼 본 발명은 텍스트 그룹핑시 출발점이 된 strong text로부터 하나의 텍스트씩 확장해가면서 그룹핑을 수행할 수 있게 된다.

또한, 출력으로 compact한 바운딩 박스를 제공하기 위해 minimum-area encasing rectangle이 계산될 수 있다. 캐릭터 픽셀의 2D 좌표를 사용하여 2D 이미지 공간에서 그룹핑된 텍스트를 에워싸는 가장 작은 직사각형이 계산될 수 있다.

도 5는 본 발명에 따른 텍스트 검출 기법을 사용하여 예시 이미지에서 텍스트를 검출하는 경우 각 과정에서의 중간 결과를 나타내는 도면이다.

도 5의 (a)의 입력 이미지가 획득된 경우, (b)는 non-maximum suppression이 수행되어 선택된 ER을 나타낸다. (c)는 텍스트 후보가 high threshold를 이용하여 분류된 결과를 나타내는데, 비교적 적은 수의 strong text가 분류된 것을 알 수 있다. (d)는 low threshold를 이용하여 추가 분류가 이루어져 많은 텍스트 후보가 weak text로 분류된 결과를 나타낸다. (e)는 텍스트 트래킹 결과를 나타낸다. 그 결과 많은 weak text가 strong text로 편입된다. (f)는 최종적으로 텍스트 그룹핑이 이루어진 결과를 나타낸다.

한편, 프로세서(120)는 전술한 통신부(110)와 후술할 저장부(130) 간의 데이터의 흐름을 제어하는 기능을 수행한다. 즉, 프로세서(120)는 입력 데이터에서 텍스트를 검출하는 장치(100)의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 통신부(110), 저장부(130)에서 각각 고유 기능을 수행하도록 제어한다.

프로세서(120)는 MPU(Micro Processing Unit) 또는 CPU(Central Processing Unit), 캐쉬 메모리(Cache Memory), 데이터 버스(Data Bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 어플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.

저장부(130)는 각종 데이터를 저장하는 구성이다. 특히, 저장부(130)는 텍스트 검출의 각 단계에서 산출되는 중간 결과 데이터를 저장할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 어플리케이션의 소프트웨어를 저장할 수 있다.

이하에서는 전술한 텍스트 검출 방법 및 장치를 구현하여 본 발명자가 실험한 결과를 간략히 설명한다.

도 6 내지 8은 다른 텍스트 검출 기술과 본 발명의 성능을 비교 실험한 결과를 나타내는 도면이다.

도 6은 ICDAR 2011 데이터 세트에 대한 캐릭터 레벨의 recall에 대해서 M.-C. Sung, B. Jun, H. Cho, and D. Kim. Scene text detection with robust character candidate extraction method. In Proc. ICDAR 2015, pages 426-430, 2015에서 제안된 최신 텍스트 후보 검출 방법과 본 발명을 비교한 결과를 나타내는 테이블이다.

도 6에 표시된 것처러 Sung et al.과 비교하여 본 발명은 ER 트리에서 non-maximum suppression을 이용하여 텍스트 후보의 숫자를 줄이고 initial ER이 Sung et al.의 1/3 정도임을 알 수 있다. 본 발명의 최종 localization 결과는 관련성이 떨어지는 텍스트 후보를 90%이상 줄이면서 상당한 recall rate을 달성한 것으로 평가될 수 있다.

도 7은 ICDAR 2013 데이터 세트에 대해 본 발명 및 다른 기술의 precision, recall, harmonic mean을 평가한 결과를 나타내는 테이블이다.

도 7에 표시된 것처럼 X.-C. Yin, X. Yin, K. Huang, and H.-W. Hao. Robust text detection in natural scene images. IEEE Trans. Pattern Analysis Machine Intelligence, 36(5):970-983, May 2014에서 제안된 알고리즘과 비교하여도 본 발명의 harmonic mean 등이 우수함을 알 수 있다.

도 8은 Y.-F. Pan, X. Hou, and C.-L. Liu. A hybrid approach to detect and localize texts in natural scene images. IEEE Trans. Image Processing, 20(3):800-813, 2011에서 제안된 다국어 데이터 세트에 대해서 실험한 결과를 나타내는 테이블이다.

도 8에 표시된 것처럼 본 발명은 다른 알고리즘들과 비교하여 향상된 recall, precision, harmonic mean을 나타냄을 알 수 있다.

한편, 이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

100 : 이미지에 포함된 텍스트를 검출하는 장치
110 : 통신부
120 : 프로세서
130 : 저장부

Claims

이미지에 포함된 텍스트를 검출하는 방법에 있어서,
(a) 입력 이미지가 획득되면, 장치가, 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하는 단계, (b) 상기 장치가, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하는 단계, 및
(c) 상기 장치가, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 단계를 포함하는 방법.
제1항에 있어서,
상기 (c) 단계는,
상기 장치가, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 또는 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 검출된 텍스트 후보가 복수 개일 때, 상기 (a) 단계 이후에, (a1) 상기 장치가, 상기 검출된 복수의 텍스트 후보가 포함되는 영역이 소정 비율 이상 서로 겹치는 텍스트 후보를 포함하는 적어도 하나의 텍스트 후보 세트를 식별하고, 식별된 각 텍스트 후보 세트에 대하여 소정의 조건을 만족하는 텍스트 후보를 선택하거나 선택하도록 지원하는 단계를 더 포함하되,
상기 (b) 단계는,
상기 소정의 조건을 만족하는 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (a) 단계에서,
상기 장치는, 상기 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 크거나 작을 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 장치는, 상기 소정의 영역의 픽셀 intensity 레벨을 변경하면서 상기 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고,
상기 검출된 적어도 하나의 텍스트 후보에서, (i) 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 큰 하위 레벨 텍스트 후보와 (ii) 상기 하위 레벨 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은 상위 레벨 텍스트 후보 중 상기 소정의 영역의 픽셀 intensity 레벨이 가장 큰 텍스트 후보를, 각각 자식 노드와 부모 노드에 할당하여 트리를 구성하거나 구성하도록 지원하는 것을 특징으로 하는 방법.
제5항에 있어서,
상기 트리에서 특정 노드에 대하여 상기 특정 노드에 대응되는 텍스트 후보가 포함되는 영역과, 상기 특정 노드에 대응되는 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은, 조상 노드에 대응되는 텍스트 후보가 포함되는 영역이 소정 비율 이상 겹치는 경우가 소정 회수 이상인 경우,
상기 장치가, 자신의 특정 조상 노드 대비 텍스트 후보가 포함되는 영역의 변화량이 상대적으로 가장 작은 노드에 대응되는 텍스트 후보를 선택하거나 선택하도록 지원하고,
상기 (b) 단계는,
상기 선택된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
제1항에 있어서,
(d) 상기 장치가, 상기 제1 임계값과 비교하여 분류된 strong text 및 상기 weak text로부터 편입된 strong text를 그룹핑하거나 그룹핑하도록 지원하는 단계를 더 포함하는 방법.
제7항에 있어서,
제1 strong text 및 제1 weak text로부터 편입된 제2 strong text가 그룹핑되고 상기 제2 strong text와 제2 weak text의 관련 정보를 참조로 하여 상기 제2 weak text가 제3 strong text로 분류되면,
상기 장치는, 상기 제3 strong text를 상기 제1 strong text 및 상기 제2 strong text와 함께 그룹핑하거나 그룹핑하도록 지원하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계는,
상기 제1 임계값과 상기 제2 임계값의 사이에 적어도 하나의 중간 임계값이 있을 때, (i) 상기 non-strong text로 분류된 텍스트 후보를 상기 중간 임계값과 비교하여 상기 strong text 또는 차순위 weak text 로 분류하거나 분류하도록 지원하고, (ii) 상기 차순위 weak text를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text 로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 장치는, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀의 피처값을 MLBP(Mean Local Binary Pattern)로 변환한 값을 참조로 하여 상기 (i) 및 상기 (ii)를 수행하거나 수행하도록 지원하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (b) 단계에서,
상기 장치는, AdaBoost 알고리즘으로 트레이닝된 분류기를 이용하여 상기 검출된 텍스트 후보를 분류하거나 분류하도록 지원하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 (c) 단계에서,
상기 관련 정보는, 상기 strong text와 상기 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 검출된 텍스트 후보가 포함되는 영역은,
extra margin을 최소화하면서 상기 검출된 텍스트 후보를 포함하는 바운딩 박스 영역인 것을 특징으로 하는 방법.
이미지에 포함된 텍스트를 검출하는 장치에 있어서,
입력 이미지를 획득하는 통신부, 및
상기 입력 이미지가 획득되면, (i) 상기 입력 이미지에 포함된 픽셀의 피처값을 참조로 하여, 상기 입력 이미지에서 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고, (ii) 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, 상기 검출된 텍스트 후보를 제1 임계값과 비교하여 strong text 또는 non-strong text로 분류하거나 분류하도록 지원하고, 상기 non-strong text로 분류된 텍스트 후보를 제2 임계값과 비교하여 weak text 또는 non-text로 분류하거나 분류하도록 지원하며, (iii) 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 로 분류하거나 분류하도록 지원할지 여부를 판단하는 프로세서를 포함하는 장치.
제14항에 있어서,
상기 (iii)에서,
상기 프로세서는, 상기 strong text와 상기 weak text의 관련 정보를 참조로 하여 상기 weak text를 상기 strong text 또는 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 검출된 텍스트 후보가 복수 개일 때, 상기 (i) 이후에, 상기 프로세서가, 상기 검출된 복수의 텍스트 후보가 포함되는 영역이 소정 비율 이상 서로 겹치는 텍스트 후보를 포함하는 적어도 하나의 텍스트 후보 세트를 식별하고, 식별된 각 텍스트 후보 세트에 대하여 소정의 조건을 만족하는 텍스트 후보를 선택하거나 선택하도록 지원하고,
상기 소정의 조건을 만족하는 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 (i)에서,
상기 프로세서는, 상기 입력 이미지에서 소정의 영역에 포함된 모든 픽셀의 피처값이 상기 소정의 영역의 외부 경계 영역의 피처값보다 크거나 작을 때, 상기 소정의 영역을 하나의 텍스트 후보로서 검출하거나 검출하도록 지원하는 것을 특징으로 하는 장치.
제17항에 있어서,
상기 프로세서는, 상기 소정의 영역의 픽셀 intensity 레벨을 변경하면서 상기 적어도 하나의 텍스트 후보를 검출하거나 검출하도록 지원하고,
상기 검출된 적어도 하나의 텍스트 후보에서, (i) 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 큰 하위 레벨 텍스트 후보와 (ii) 상기 하위 레벨 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은 상위 레벨 텍스트 후보 중 상기 소정의 영역의 픽셀 intensity 레벨이 가장 큰 텍스트 후보를, 각각 자식 노드와 부모 노드에 할당하여 트리를 구성하거나 구성하도록 지원하는 것을 특징으로 하는 장치.
제18항에 있어서,
상기 트리에서 특정 노드에 대하여 상기 특정 노드에 대응되는 텍스트 후보가 포함되는 영역과, 상기 특정 노드에 대응되는 텍스트 후보의 영역을 포함하고 상기 소정의 영역의 픽셀 intensity 레벨이 상대적으로 작은, 조상 노드에 대응되는 텍스트 후보가 포함되는 영역이 소정 비율 이상 겹치는 경우가 소정 회수 이상인 경우,
상기 프로세서가, 자신의 특정 조상 노드 대비 텍스트 후보가 포함되는 영역의 변화량이 상대적으로 가장 작은 노드에 대응되는 텍스트 후보를 선택하거나 선택하도록 지원하고,
상기 선택된 텍스트 후보가 포함되는 영역 내에서 선택된 적어도 하나의 픽셀의 피처값 또는 이를 변환한 값을 참조로 하여, (i) 상기 소정의 조건을 만족하는 텍스트 후보를 상기 제1 임계값과 비교하여 상기 strong text 또는 상기 non-strong text로 분류하거나 분류하도록 지원하고, (ii) 상기 non-strong text로 분류된 텍스트 후보를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 프로세서가, 상기 (iii) 이후에 iv) 상기 제1 임계값과 비교하여 분류된 strong text 및 상기 weak text로부터 편입된 strong text를 그룹핑하거나 그룹핑하도록 지원하는 것을 특징으로 하는 장치.
제20항에 있어서,
제1 strong text 및 제1 weak text로부터 편입된 제2 strong text가 그룹핑되고 상기 제2 strong text와 제2 weak text의 관련 정보를 참조로 하여 상기 제2 weak text가 제3 strong text로 분류되면,
상기 프로세서는, 상기 제3 strong text를 상기 제1 strong text 및 상기 제2 strong text와 함께 그룹핑하거나 그룹핑하도록 지원하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 (ii)에서,
상기 제1 임계값과 상기 제2 임계값의 사이에 적어도 하나의 중간 임계값이 있을 때, (ii-1) 상기 non-strong text로 분류된 텍스트 후보를 상기 중간 임계값과 비교하여 상기 strong text 또는 차순위 weak text 로 분류하거나 분류하도록 지원하고, (ii-2) 상기 차순위 weak text를 상기 제2 임계값과 비교하여 상기 weak text 또는 상기 non-text 로 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 (ii)에서,
상기 프로세서는, 상기 검출된 텍스트 후보가 포함되는 영역 내에서 선택된 픽셀의 피처값을 MLBP(Mean Local Binary Pattern)로 변환한 값을 참조로 하여 상기 분류 작업을 수행하거나 수행하도록 지원하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 (ii)에서,
상기 프로세서는, AdaBoost 알고리즘으로 트레이닝된 분류기를 이용하여 상기 검출된 텍스트 후보를 분류하거나 분류하도록 지원하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 (iii)에서,
상기 관련 정보는, 상기 strong text와 상기 weak text의 위치 정보, 크기 정보, 컬러 정보, stroke width 정보 중 적어도 일부를 포함하는 것을 특징으로 하는 장치.
제14항에 있어서,
상기 검출된 텍스트 후보가 포함되는 영역은,
extra margin을 최소화하면서 상기 검출된 텍스트 후보를 포함하는 바운딩 박스 영역인 것을 특징으로 하는 장치.