KR20130016213A

KR20130016213A - 광학 문자 인식되는 텍스트 영상의 텍스트 개선

Info

Publication number: KR20130016213A
Application number: KR1020127023496A
Authority: KR
Inventors: 사사 갈릭; 드조르드제 니젬체빅; 보딘 드레세빅
Original assignee: 마이크로소프트 코포레이션
Priority date: 2010-03-10
Filing date: 2011-03-07
Publication date: 2013-02-14
Also published as: CN102782706A; EP2545499A4; WO2011112522A3; JP5754065B2; EP2545499B1; WO2011112522A2; ES2773719T3; JP2013527513A; US8526732B2; CA2790402A1; EP2545499A2; KR101795823B1; CN102782706B; US20110222768A1

Abstract

광학 문자 인식을 하기 위한 텍스트 영상을 개선하기 위한 방법은 텍스트의 본래의 라인을 포함하는 영상을 수신함으로써 시작한다. 상기 영상 내에서 상기 텍스트의 본래의 라인에 따라 평균 배경 강도를 나타내는 배경 라인 프로파일이 결정된다. 마찬가지로, 상기 영상 내에서 상기 텍스트의 본래의 라인에 따라 평균 전경 배경 강도를 나타내는 전경 라인 프로파일이 결정된다. 상기 배경 라인 프로파일과 상기 전경 라인 프로파일에 적어도 부분적으로 기반하여 상기 영상의 배경 부분 또는 전경 부분에 상기 영상 내의 픽셀들이 할당된다. 상기 영상의 상기 배경 부분에 지정된 상기 픽셀들의 강도는 텍스트를 포함하지 않은 상기 영상의 일부분을 표시하도록 최대 휘도로 조정된다.

Description

광학 문자 인식되는 텍스트 영상의 텍스트 개선{TEXT ENHANCEMENT OF A TEXTUAL IMAGE UNDERGOING OPTICAL CHARACTER RECOGNITION}

광학 문자 인식(optical character recognition(OCR))은 일반적으로 표준 인코딩 방안(standard encoding scheme)에서 텍스트 영상을 기계 편집 가능한 텍스트(machine-editable text)로서의 디지털 형태로, 컴퓨터에 기반해서 변환(computer-based translation)하는 것이다. 이런 프로세스는 컴퓨터 시스템으로 수동으로 문서를 타이핑할 필요성을 제거한다. 열악한 영상 품질, 스캐닝 프로세스에 의해 야기된 결함 등으로 인해 다양한 문제가 발생할 수 있다. 예를 들어, 통상적인 OCR 엔진은 한 페이지의 텍스트를 스캐닝하는 평판 스캐너(flatbed scanner)에 결합될 수 있다. 페이지가 스캐너의 스캐닝 면에 대해 동일한 평면에 위치되므로, 스캐너에 의해 생성된 영상은 전형적으로 균일한 콘트라스트(contrast) 및 조도(illumination), 감소된 스큐(skew) 및 왜곡, 및 높은 해상도를 나타낸다. 따라서, OCR 엔진은 영상 내의 텍스트를 기계 편집 가능한 텍스트로 쉽게 변환할 수 있다. 그러나, 영상이 콘트라스트, 조도, 스큐 등에 관해 보다 열악한 품질일 때, OCR 엔진의 성능이 저하될 수 있으며, 영상 내의 모든 픽셀의 처리로 인해 처리 시간이 증가될 수 있다. 예를 들어, 영상이 영상기 기반 스캐너(imager-based scanner)에 의해 생성될 때, 텍스트/픽처(text/picture)가 거리를 두고, 변화하는 배향(orientation)으로, 그리고 변화하는 조도로 스캐닝되므로, 이것이 사실일 수 있다. 비록 스캐닝 프로세스의 성능이 양호하더라도, 비교적 낮은 품질 페이지의 텍스트가 스캐닝되고 있을 때 OCR 엔진의 성능이 저하될 수 있다.

OCR 프로세스의 정확도는 나머지 텍스트 픽셀들이 통합되는 동안 원본 영상의 배경이 검출되고 필터링되면 상당히 향상될 수 있다. 하나의 구현에서, 배경 및 텍스트 색상 프로파일을 계산함으로써 배경이 검출되며 필터링된다. 그런 다음, 텍스트 스트로크 픽셀(text stroke pixel)을 매우 정확하게 식별하는 스트로크 회복 기법(stroke recovery technique)을 사용하여 텍스트 개선이 수행된다.

하나의 특정 구현에서, 광학 문자 인식되는 텍스트 영상을 개선하기 위한 방법은 텍스트의 본래의 라인을 포함하는 영상을 수신함으로써 시작한다. 영상 내에서 본래의 라인에 따른 평균 배경 강도를 나타내는 배경 라인 프로파일이 결정된다. 마찬가지로, 영상 내에서 본래의 라인에 따라 평균 전경 배경 강도를 나타내는 전경 라인 프로파일이 결정된다. 배경 라인 프로파일과 전경 라인 프로파일에 적어도 부분적으로 기반하여 영상의 배경 부분 또는 전경 부분에 영상 내의 픽셀들이 할당된다. 영상의 배경 부분에 지정된 픽셀들의 강도는 텍스트를 포함하지 않은 영상의 일부분을 나타내도록 최대 휘도로 조정된다.

또 다른 특정 구현에서, 배경 라인 프로파일 및 전경 라인 프로파일이 결정된 후에, 영상 내의 텍스트를 나타내는 연결 부분의 평균 또는 중간 스트로크 폭이 결정된다. 평균 또는 중간 스트로크 폭이 임계값보다 작으면, 텍스트 품질이 개선된다. 예를 들어, 영상 해상도를 증가시키기 위해 영상 보간을 수행함으로써 텍스트 품질이 개선될 수 있다.

이 발명의 요약은 이하의 상세한 설명에서 추가로 후술되는 개념의 선택을 단순화된 형태로 소개하기 위해 제공된다. 이 요약은 청구된 발명 대상의 주요 특징 또는 필수 특징을 식별하도록 의도되지 않으며, 청구된 발명 대상의 범위를 결정하는 데에 도움이 되게 사용되도록 의도되지 않는다.

도 1은 광학 문자 인식을 위한 시스템의 하나의 예시적인 예를 도시한다.
도 2는 처리에 적합하지 않은 텍스트 라인의 일 예를 도시한다.
도 3은 OCR 처리에 보다 적합한 도 2 내의 텍스트 라인의 변환을 도시한다.
도 4는 텍스트가 배경보다 짙은 것을 보장하기 위한 영상 변환을 도시한다.
도 5는 에지 공간 내의 텍스트 라인 표시의 일 예를 도시한다.
도 6은 도 2 내의 영상의 그레이 스케일 버전(gray-scale version)이다.
도 7은 차원이

인 직사각형에 걸쳐 국부 처리가 수행되는 도 6 내의 텍스트의 본래의 라인의 최좌측부를 도시한다.
도 8은 에지 공간 내에 표시된 도 7 내의 텍스트의 본래의 라인을 도시한다.
도 9는 에지를 포함하는 하나의 영역(짙음) 및 에지를 포함하지 않은 또 다른 영역(옅음)을 정의하는 도 8에 도시된 연결 부분을 둘러싸는 박스를 도시한다.
도 10a는 도 7 내의 직사각형 국부 영역에 대한 강도의 히스토그램이고, 도 10b는 도 9 내의 짙은 그레이 영역에 대한 색상 강도에 대한 픽셀의 분포를 도시하는 히스토그램이며, 도 10c는 도 10a 내의 히스토그램의 상응하는 값으로부터 도 10b 내의 제 2 히스토그램의 값을 차감함으로써 획득된 히스토그램이다.
도 11은 도 6 내의 텍스트 라인에 대한 계산된 배경 라인 프로파일(상부 라인) 및 계산된 전경 라인 프로파일(하부 라인)을 도시한다.
도 12는 짙은 배경 상의 옅은 텍스트에 반전 연산자를 적용한 결과를 도시한다.
도 13은 낮은 품질의 텍스트 영상의 일 예를 도시한다.
도 14는 도 13 내에 도시된 영상에 임계 처리 과정을 적용한 결과를 도시한다.
도 15는 화살표가 시작하는 단일 전경 픽셀에 대해 국부 스트로크 폭이 결정되는 방식을 도시한다.
도 16은 보간되어야 하는 영상 내의 한 세트의 네 개인 픽셀들로 하나의 픽셀이 매핑되는 것을 도시한다.
도 17은 보간 프로세스 내의 단계를 예시한다.
도 18은 도면의 상부에 도시된 텍스트 영상에 보간 프로세스를 적용한 결과를 예시한다.
도 19는 텍스트 개선 프로세스가 적용될 단어를 예시한다.
도 20은 도 20 내에 도시된 단어 내의 제 1 문자에 픽셀들을 추가함으로써 텍스트 개선 프로세스를 도시한다.
도 21a는 연결 부분의 일 예를 도시하고, 도 21b는 도 21a 내의 연결 부분에 대한 에지 픽셀을 도시하며, 도 21c는 도 21a 내의 연결 부분의 골격을 도시한다.
도 22는 연결 부분의 골격에 도 20의 픽셀 추가 프로세스를 적용한 결과를 도시한다.
도 23은 도 13 내에 도시된 영상에 텍스트 개선 프로세스를 적용한 결과를 도시한다.
도 24는 광학 문자 인식되는 텍스트 영상에 대한 텍스트 개선을 수행할 수 있는 영상 처리 장치의 일 예를 도시한다.
도 25는 광학 문자 인식되는 텍스트 영상을 개선하기 위한 전체 방법의 일 예를 도시하는 흐름도이다.

도 1은 문서(15)의 영상을 생성하는 데이터 캡처 장치(예를 들어, 스캐너(10))를 포함하는 영상 내의 광학 문자 인식(optical character recognition(OCR))을 위한 시스템(5)의 하나의 예시적인 예를 도시한다. 스캐너(10)는 영상을 생성하기 위해 영상 센서와 같은 전하 결합 소자(charge-coupled device(CCD))를 이용하는 영상 기반 스캐너일 수 있다. 스캐너(10)는 영상을 처리하여 입력 데이터를 생성하며, 영상 내의 문자 인식을 위해 처리 장치(예를 들어, OCR 엔진(20))로 입력 데이터를 송신한다. 이러한 특별한 예에서, OCR 엔진(20)은 스캐너(10) 내로 통합된다. 그러나, 다른 예에서, OCR 엔진(20)은 독립형 유닛과 같은 별개의 유닛일 수 있거나, 또는 PC, 서버 등과 같은 또 다른 장치 내로 통합된 하나의 유닛일 수 있다.

나머지 텍스트 픽셀들이 통합되는 동안 원본 영상의 배경이 검출되며 필터링되면, OCR 프로세스의 정확도가 상당히 향상될 수 있다. 후술된 바와 같이, 배경 및 텍스트 색상 프로파일을 계산함으로써 배경이 검출되어 필터링된다. 그런 다음, 텍스트 스트로크 픽셀을 아주 정확하게 식별하는 스트로크 회복 기법을 사용하여 텍스트 개선이 수행된다.

이러한 텍스트 개선 프로세스로의 입력은 텍스트의 본래의 라인("본래의 라인"의 정의에 대해 이하 참조)의 영상이다. 그러나, 계속해서 실제 프로세스를 설명하기 전에, 몇 개의 수학적 개념이 도입될 것이다. 본 발명의 이해를 용이하게 하기 위해 그리고 일부 경우에는 특정 설명을 공식화하기 위해 이들 개념이 이러한 논의를 통해 일반적으로 사용될 것이다.

정의 1. 폭이 w이고 높이가 h인 디지털 색상 영상은 두 개의 인수(argument)의 벡터 함수(vector function)

이며, 여기서

,

, 그리고 ×는 데카르트 곱(Cartesian product)을 나타낸다.

이러한 정의는 RGB 색상 시스템으로부터 유도되며,

내의 컴포넌트 r, g, b는 적색, 녹색 및 청색 컴포넌트에 각각 상응한다.

정의 2. 폭이 W이고 높이가 H인 디지털 그레이-스케일 영상(gray-scale image)은 두 개의 인수의 스칼라 함수(scalar function)

이며, 여기서

는,

-

(여기서 그레이-스케일 영상은 이진(binary), 2 레벨(bi-level) 또는 바이토날(bitonal) 영상으로 지칭됨),

-

(여기서 그레이-스케일 영상은 16 레벨 그레이-스케일 영상으로 지칭됨),

-

(여기서 그레이-스케일 영상은 256 레벨 그레이-스케일 영상으로 지칭됨)일 수 있다.

이 시점에서, 본 명세서를 통해 사용되는 하나의 약속(convention)가 도입되어야 한다. 영상이 함수로 간주되므로, 그에 대한 그래프 표현의 좌표계가 정의되어야 한다. 대개, 영상의 좌측 상부 모서리가 기준점으로 취해진다. 여기에서는 이러한 묵계를 따를 것이며, 그러므로 영상의 좌측 상부 모서리가 원점에 위치되는 것으로 취급될 것이다.

정의 3. 트리플릿(triplet)

가 픽셀로 지칭된다. 쌍

는 픽셀 좌표로 지칭되는 반면

는 픽셀 값으로 지칭된다.

대개, 좌표(coordinate), 값(value) 및 좌표와 값 모두에 대해 용어 "픽셀(pixel)"이 호환 가능하게 사용된다. 혼동이 일어날 것 같지 않으면 여기에서는 용어 "픽셀"도 또한 이런 방식으로 사용될 것이지만, 그렇지 않으면 정확한 용어가 사용될 것이다. 또한, 혼동이 일어날 것 같지 않으면 기호

가 호환 가능하게 사용될 것이다.

이전의 세 개의 정의는 무엇이 디지털 영상인지에 대한 이해를 제공한다. 영상 처리의 통상적인 임무는 다양한 결론이 도출될 수 있도록 추가 분석을 위해 보다 편리한 원본 영상의 어떤 표현을 초래하는 일련의 변환이다. 다음의 정의는 이들 변환의 공식화를 위한 수학적 수단을 제공한다.

정의 4.

가 차원이 w 및 h인 한 세트의 모든 영상들이라고 하자. 함수

은 n항 영상 연산자(n-ary image operator)로 지칭된다. n=1이면 연산자가 단항(unary)인 반면, n=2인 경우에 연산자는 2진(binary)이다.

이전의 정의는 연산자가 어떤 세트의 변환 규칙들을 사용하여 영상(또는 몇 개의 영상)을 또 다른 영상으로 변환하는 함수인 것을 암시한다. 가장 중요한 영상 연산자는 필터-기반 연산자(filter-based operator)이다. 필터(때때로 커널(kernel) 또는 마스크로 지칭됨)는 크기가

인 매트릭스

이다. 대개, n 및 m은 동일하고 홀수이며, 예를 들어 3 × 3, 5 × 5, 7 × 7 필터를 산출한다. 필터-기반 연산자는 출력 영상 내의 픽셀

이 공식

을 사용하여 계산되는 규칙을 사용하여 입력 영상을 변환하며, 여기서 모든 나눗셈은 정수 나눗셈(integer division)이다.

즉, 출력 영상 내의 픽셀은 필터를 이용하여 입력 영상 내의 상응하는 픽셀의 이웃을 컨볼루션(convolve)함으로써 구성된다.

정의 5. I가 폭이 w이고 높이가 h인 영상이며, I(x,y)가 임의의 픽셀이라고 하자. 한 세트의 픽셀들 {I(x+1,y), I(x-1,y), I(x,y+1), I(x,y-1)}은 I(x,y)의 4 개의 이웃(4-neighbors)으로 지칭된다. 마찬가지로, 한 세트의 픽셀들 {I(x+1,y), I(x-1,y), I(x,y+1), I(x,y-1), I(x-1,y-1), I(x-1,y+1), I(x+1,y-1), I(x+1,y+1)}은 I(x,y)의 8 개의 이웃(8-neighbors)으로 지칭된다.

문헌에 인접(adjacency)에 대한 상이한 정의가 있지만, 다음의 논의를 위해 다음의 정의가 가장 편리하므로, 다음의 정의가 사용될 것이다.

정의 6. I(x₂,y₂)가 I(x₁,y₁)의 8 개의 이웃들의 세트(8-neighbors set)의 구성원이고 그들의 픽셀 값이 "유사(similar)"하면, 두 개의 픽셀 I(x₁,y₁) 및 I(x₂,y₂)은 인접한다.

단어 "유사"는 유사도의 엄격한 정의가 존재하지 않으므로 따옴표 내에 위치된다. 대신에, 이러한 정의는 특정 애플리케이션의 요구에 따라 채택된다. 예를 들어, 두 개의 픽셀 값이 동일하면 두 개의 픽셀이 유사하다고 할 수 있다. 본 명세서를 통해 다르게 설명되지 않는 한 이러한 정의가 가정될 것이다.

정의 7.

에 대해 I(x_i,y_i) 및 I(x_i ₊₁,y_i ₊₁)가 인접하도록 세트 {I(x₂,y₂), I(x₃,y₃),...,I(x_n _-1,y_n _-1)}가 존재하면, 두 개의 픽셀 I(x₁,y₁) 및 I(x_n,y_n)는 연결된다.

정의 8. 연결 부분은 영상 픽셀의 부분집합이며, 여기서 세트로부터의 각각의 픽셀은 세트로부터의 모든 나머지 픽셀들과 연결된다.

텍스트 영상 내의 배경을 필터링하기 위해, 깨끗한 (예를 들어, 백색인) 배경 상에 그레이 스케일 텍스트를 제공하도록 텍스트와 배경 사이의 관계가 이해될 필요가 있다. 이러한 요구는 도 1을 참조하여 명백해질 수 있다.

도 2에 도시된 텍스트 라인의 영상은 순차적 처리(successive processing)를 위해 적합하지 않다. 그것이 도 3에 도시된 영상 내로 변환될 수 있으면, OCR 프로세스 내의 다음의 단계가 보다 간단해질 수 있으며 보다 정확해질 수 있을 것이다. 또한, 텍스트가 배경보다 짙다고 가정되는 것이 편리하다. 실제로 이것이 사실이면, 모든 텍스트-배경 조합이 균일하게 취급될 수 있다. 따라서, 필요할 때, 도 4에 도시된 영상 변환이 수행되어야 한다.

이전의 논의는 텍스트 영상의 배경을 필터링하기 위해 (색상의 측면에서) 텍스트-배경 관계가 결정되어야 한다는 것과 텍스트 개선 프로세스가 검은 텍스트가 백색 배경 상에 표현되는 영상을 생성한다는 것을 명백하게 해야 한다. 다음의 섹션에서 텍스트-배경 관계 검출이 설명된다.

라인 프로파일링( Line Profiling )

주목할 첫 번째 사항은 텍스트 라인 영상이 두 개의 픽셀 유형을 갖는다는 것이며, 하나의 픽셀 유형은 텍스트로부터 기원하며 하나의 픽셀 유형은 배경으로부터 기원한다는 것이다. 또한, 텍스트와 배경 사이에 에지(edge)에서 갑작스런 색상 변화가 존재한다. 이는 텍스트 라인이 에지 공간(edge space) 내에서 관찰될 수 있다는 결론을 초래한다. 에지 공간 내의 라인 표시는 다양한 주지된 에지 검출 기법 중 임의의 에지 검출 기법을 사용하여 획득될 수 있다. 에지 공간 내의 라인 표시의 일 예는 도 5에 도시된다.

모든 중요한 텍스트 특징이 도 5에 표현된다는 것이 명백하다. 문자는 에지 공간 내의 연결 부분으로서 주로 표시된다. 또한, 에지 공간 내의 텍스트 특징의 표현은 텍스트-배경 관계와 무관하다(예를 들어, 어떤 것이 더 짙은지는 상관없다). 그러므로, 다음의 정의가 공식화될 수 있다.

정의 9. 본래의 라인은 텍스트 라인 영상의 에지 공간 내의 한 세트의 모든 연결 부분들이다.

CC_i가 i-번째 연결 부분이며

이 본래의 라인이면,

은,

을 유지한다.

라인 프로파일링 과정은 다음의 정의에서 정의된 라인 프로파일을 생성하는 본래의 라인에 대해 착수된다.

정의 10.

이 본래의 라인이라고 하며,

이 폭이 w이고 높이가 h인 상응하는 본래의 라인 영상이라고 하자. 그런 다음, 다음의 조건,

-

-

이 만족되면(여기서 FP(x₀)는 좌표 x=x₀에서 본래의 라인 영상으로부터의 한 세트의 모든 전경 픽셀들이며, BP(x₀)는 좌표 x=x₀에서 본래의 라인 영상으로부터의 한 세트의 모든 배경 픽셀들임), 함수

및 함수

는 전경 라인 프로파일 및 배경 라인 프로파일로 지칭되는데, 여기서

이며,

이다.

즉, 프로파일 함수는 주어진 영상 칼럼에 대한 평균 배경 강도 또는 평균 전경 강도를 반영한다.

라인 프로파일을 도입하는 것의 중요성은 도 2 내의 영상의 그레이 스케일 버전인 도 6을 참고한 후에 명백해야 한다. 비록 텍스트 색상 강도 및 배경 색상 강도가 수평 축을 따라 상당히 균일하다는 것이 종종 타당한 가정이지만, 이러한 가정은 도 6의 경우에는 맞지 않는다. 영상의 좌측 상의 평균 배경 강도는 대략 190이지만, 영상의 우측 상의 평균 배경 강도는 대략 100이다(그 차이는 전체 그레이-스케일 범위 0-255의 1/3 초과이다).

따라서, 도 6의 경우에, 배경 강도를 전체 영상에 걸쳐 단일 값으로 근사시키는 것은 다음의 처리 단계가 가장 신뢰할만한 정보를 획득하지 못하게 하면서 정확도에서의 상당한 손실을 생성할 것이다. 이는 라인 프로파일을 도입하기 위한 이유이다. 라인 프로파일링 과정은 라인 프로파일을 추정하기 위한 방법이며, 후술될 것이다.

정의 10에서 도입된 라인 프로파일은 프로세스 내의 이러한 시점에서 전경 픽셀 및 배경 픽셀에 대한 지식의 부족으로 인해 주어진 공식을 사용하여 계산하기 곤란하다. 그러므로, 어떤 종류의 추정이 수행되어야 한다.

관찰할 첫 번째 사항은, 비록 본래의 라인 전체에서 색상에서의 큰 변화가 존재할 수 있더라도, 비교적 적은 국부 영역에 걸쳐서 색상이 상당히 일정해야 한다는 것이다. 그러한 국부 영역이 예를 들어 폭이 h의 수 배수와 같고 높이가 h(여기서 h는 라인의 높이임)와 같은 직사각형이라고 선택되면, 국부 처리는 그러한 작은 부분에 대해 수행될 수 있다.

직사각형의 차원은 색상 변화가 몇 개의 문자의 폭에 비례하는 거리에 걸쳐 비교적 클 수 없다는 가정에 순응하도록 선택된다. 국부 처리는 직사각형에 대해 수행된 처리가 두 개의 값, 즉 지배 배경 색상에 대한 하나의 값과 지배 전경 색상에 대한 하나의 값을 산출한다는 것을 암시한다. 이들 두 개의 결과는 상응하는 직사각형에 걸쳐 라인 프로파일 값을 근사시키기 위해 사용될 수 있다. 하나의 이러한 직사각형의 일 예가 도 7에 도시된다.

도 7은 선택된 직사각형이 차원

를 갖는 도 6 내의 본래의 라인의 최좌측부를 도시한다. 국부 처리가 지배 전경 색상 및 지배 배경 색상으로서

및

를 각각 산출하면, 다음의 근사가 사용될 수 있다.

이러한 근사는 라인 프로파일을 위한 단계형 근사(step-like approximation)를 유발한다.

및

의 값을 계산하기 위해, 도 7 내의 직사각형은 도 8에 도시된 바와 같이 에지 공간 내에 표시되어야 한다. 마찬가지로 다른 근사가 사용될 수 있다. 예를 들어, 비록 구간적 선형 근사(piecewise linear approximation)가 증가된 처리 시간을 요구할 수 있더라도, 구간적 선형 근사는 보다 양호한 결과를 줄 수 있다.

도 8 내의 세 개의 내부 직사각형은 연결 부분의 바운딩 박스(bounding box)에 상응한다. 이들 박스는 두 개의 상이한 영역을 정의하는데, 하나의 영역은 에지를 포함하며 또 다른 하나의 영역은 에지를 포함하지 않는다. 이들 영역은 도 9에 도시된다. 도 9 내의 짙은 그레이 영역은 에지 영역에 상응하는 반면, 옅은 그레이 영역은 에지 아닌 영역(non-edge area)에 상응한다.

다음으로, 도 7 내의 직사각형 국부 영역에 대한 픽셀의 색상 강도에 대한 픽셀의 분포를 예시하는 히스토그램이 계산된다. 도 9 내의 오직 짙은 그레이 영역에 대한 픽셀의 색상 강도에 대한 픽셀의 분포를 예시하는 또 다른 히스토그램이 계산된다. 또 다른 히스토그램은 제 1 히스토그램의 상응하는 값으로부터 제 2 히스토그램의 값을 차감함으로써 획득된다. 계산된 히스토그램은 도 10a, 도 10b 및 도 10c에 도시된다.

도 10c 내의 히스토그램은 도 9 내의 옅은 그레이 영역의 히스토그램이다(이는 그것이 전술된 차감 프로세스에 의해 생성되었기 때문이다). 이는 에지를 포함하지 않은 영역이며, 이는 에지가 오직 문자-배경 경계에서만 발견되기 때문에 문자를 갖지 않는 영역을 암시한다. 즉, 그것은 배경에 상응하는 영역이다. 이는 도 10a 및 도 10b 내의 히스토그램을 보다 상세하게 논의함으로써 증명될 것이다.

도 10a 내의 히스토그램은 도 7 내의 전체 직사각형에 대한 픽셀 강도의 분포를 표시한다. 도시된 바와 같이, 배경 픽셀에 의해 야기된 하나의 지배 피크가 존재한다. 엄밀하게 말해서, 이러한 지배 피크의 존재는 규칙이 아니며(정말 볼드체인 문자를 고려), 따라서 이것이 실제로 배경을 표시한다는 것이 아직 가정되지 않을 것이다. 텍스트 및 배경은 물론 그들의 블렌딩에 의해 야기되는 피크의 좌측에 히스토그램의 비교적 평탄한 부분이 또한 존재한다.

히스토그램(도 10b)은 에지 영역에 상응하는 도 9에 도시된 내부 직사각형 내의 픽셀에 대한 픽셀 강도의 분포를 표시한다. 이러한 히스토그램은 배경 피크가 그만큼 지배적이지 않다는 것을 제외하고 도 10a의 히스토그램과 상당히 유사하다. 제 3 히스토그램(도 10c)이 가장 중요하다. 전술된 바와 같이, 그것은 배경 픽셀에 상응한다. 히스토그램 차감 프로세스로 인해, 텍스트 및 텍스트-배경 블렌딩으로부터 유래하는 컴포넌트는 완전히 취소된다(도 10a로부터 평탄한 영역의 존재를 주목하자). 피크의 최대값에 상응하는 히스토그램 내의 특정 빈(bin)은 지배 배경 색상의 강도를 제공한다. 이러한 예에서, 그것은 190이다.

배경 동적 범위(background dynamic range)는 도 10c의 히스토그램으로부터 또한 획득될 수 있다. 그것은 0에서 시작하는 강도를 검사하고 0이 아닌 갯수의 픽셀을 갖는 제 1 빈에 대한 강도 값을 발견함으로써 발견될 수 있다. 도 10c에서, 이 값은 150이다. 그런 다음, 픽셀의 갯수가 0으로 복귀하는 다음의 빈(bin)에 대한 강도 값이 발견된다. 도 10c에서 이 값은 230이다. 따라서, 동적 범위는 [150, 230]이다. 이러한 범위 외부에 있는 히스토그램(도 10b) 내의 강도 값은 전경 텍스트 픽셀에 의해 야기된다. 전경 픽셀로부터 발생하는 제 2 피크의 최대 값에 상응하는 도 10b의 히스토그램 내의 빈은 지배 전경 색상의 강도에 상응하며, 이는 이러한 예에서 47이다.

전경 라인 프로파일에 대한 추정 및 배경 라인 프로파일에 대한 추정은 본래의 라인의 각각의 국부 영역(예를 들어, 도 7 내의 직사각형)에 이런 프로세스를 적용함으로써 획득될 수 있다. 이들 추정을 획득하기 위해 필요로 하는 모든 처리는 간단한 히스토그램 조작, 즉, 히스토그램 계산, 히스토그램 차감 및 최대 값 추출에 의존한다는 것이 주목되어야 한다. 복잡한 연산(예를 들어, 피크 검출, 피크 폭 추정, 평탄한 영역 검출)이 수행되지 않으며, 따라서 복잡한 분석으로부터 잠재적인 오차가 발생할 기회를 거의 남기지 않는다. 도 6 내의 텍스트 라인에 대한 계산된 배경 라인 프로파일 및 계산된 전경 라인 프로파일은 도 11에 도시되며, 여기서 상부 라인은 배경 라인 프로파일을 표시하고, 하부 라인은 전경 라인 프로파일을 표시한다.

이 시점에서 하나의 추가 단계가 수행되어야 한다. 즉, 두 개의 라인 프로파일들 사이의 관계를 관찰함으로써, 어느 것이 더 짙은지를 결정하기 위해 텍스트-배경 관계가 쉽게 추출될 수 있다. 짙은 배경 상에 옅은 텍스트가 발견되면, 영상 반전 연산자

가 적용될 수 있다. 이러한 연산자는 다음과 같이 정의된다.

이러한 연산자를 적용한 결과는 도 12에 도시된다. 이러한 반전이 수행된 후에, 필요할 때, 짙은 텍스트가 옅은 배경 상에 나타난다는 것이 안전하게 가정될 수 있다. 일단 배경 라인 프로파일 및 전경 라인 프로파일이 계산되면(그리고 필요할 때 영상 반전이 수행되면), 배경은 후술될 임계 처리를 사용하여 걸러질 수 있다.

임계 처리( Thresholding )

일단 라인 프로파일이 계산되면, 배경을 필터링하는 프로세스가 상당히 간단하다. 함수

가 각각의 픽셀에 적용되며 다음과 같이 정의된다.

즉, 전경 프로파일과 배경 프로파일의 평균보다 작은 픽셀 강도 값을 갖는 각각의 픽셀은 있는 그대로 남겨지는 반면, 다른 픽셀들은 그들이 최대 강도를 갖는 것처럼 보이도록 변경된다. 즉, 그들은 백색으로 변경된다. 이러한 종류의 임계 처리는 픽셀을 그들의 픽셀 값에 기반하여 전경 또는 배경으로 픽셀을 분류하는 프로세스로서 여겨질 수 있다. 픽셀이 전경 픽셀로 분류되면 그 값은 수정되지 않으며, 픽셀이 배경 픽셀로 분류되면 그 값은 백색으로 변경된다.

보다 일반적으로, 일부 구현에서, 전경 프로파일과 배경 프로파일의 평균으로 문턱을 설정하는 대신에, 전경 프로파일과 배경 프로파일로부터 결정되는 다른 매개변수가 선택될 수 있다.

도 3에 도시된 영상은 전술된 임계 처리 기법을 사용하여 획득되었다. 이러한 기법은 매우 양호한 결과를 생성한다. 그러나, 낮은 품질의 영상에 대한 그러한 적용은 항상 만족스럽지는 않으며, 후술된 바와 같이 이러한 영상에 일부 텍스트 개선 기법이 적용될 수 있다.

낮은 품질의 텍스트 개선

도 13은 낮은 품질의 텍스트 영상의 일 예를 도시한다. 이러한 영상에 전술된 임계 처리 과정을 적용한 결과는 도 14에 도시된다. 결과로 생성된 영상은 명백하게 그 품질이 나쁘다. 그 영상이 심지어 인간에게 거의 판독 불가능하므로 모든 다음의 처리 단계는 그릇된 결정을 내리게 된다. 잘못된 결과에 대한 이유는 명백하다. 도 13 내의 텍스트 스트로크를 형성하는 픽셀 값은 큰 변화를 가진다. 그들 중 일부는 전경 픽셀보다 배경 픽셀에 훨씬 더 유사하며, 일부 잡음성 픽셀은 전경 픽셀 값과 유사한 값을 갖는다. 또한, 스트로크 폭은 극도로 작아서 텍스트 완전성(text integrity)이 거의 없게 된다.

전술된 임계 처리 과정은 국부 배경 프로파일과 국부 전경 프로파일 사이의 중간에 있는 문턱 함수에 대한 고정 값을 사용한다. 낮은 품질의 텍스트 영상에 관한 문제를 극복하기 위한 하나의 접근방법은 문턱이 상이한 영상에 대해 조정 가능하도록 임계 처리 과정이 보다 적응적이 되도록 하는 것이다. 불행하게도, 이것을 효과적으로 달성하기 위해 일반적으로 보다 많은 콘텍스트 정보가 필요하다. 임계 처리 프로세스에 대한 하나의 대안은 더 양호한 배경 필터링을 제공하기 위해 보다 지능적인(그리고 보다 집중적인) 처리를 사용하여 낮은 품질의 영상을 검출하는 것을 수반한다. 이러한 대안적인 프로세스는 낮은 품질의 텍스트 영상이 어떻게 검출될 수 있는지를 논의한 후에 설명될 것이다.

낮은 품질의 텍스트 검출

낮은 품질의 텍스트 영상을 검출하는 제 1 단계는 이러한 영상의 품질을 낮게 하는 이들 특징을 식별하는 것을 수반한다. 전술된 바와 같이, 이러한 텍스트 영상은 작은 스트로크 폭 및 큰 텍스트 색상 변화를 특징으로 한다. 스트로크 폭이 더 크다면, 전술된 임계 처리 프로세스는 문자의 "얇아진(thinned)" 연출(rendition)을 생성하겠지만, 그들은 여전히 판독 가능할 것이다. 이는 또한 작은 색상 변화에 대하여 사실이다. 낮은 품질의 텍스트 영상의 주요 특징이 큰 색상 강도 변화와 함께 작은 스트로크 폭이라는 것이라고 결론을 내릴 수 있다.

주목할 또 다른 사항은 도 14에 도시된 임계 처리 과정의 결과이다. 이러한 과정이 (전형적으로 한 쌍의 픽셀보다 작은) 작은 폭을 갖는 문자의 일부로 스트로크를 산출하는 것이 명백하다. 이러한 영상에 대한 "스트로크" 폭의 중간을 계산함으로써, 텍스트 품질이 평가될 수 있다.

스트로크 폭을 추정하기 위한 과정을 설명하기 위해 다음의 정의가 필요하다.

정의 11.

가 연결 부분이라고 하자.

의 8 개의 이웃들의 세트에 속하는

가 존재하는 각각의

는

의 에지 픽셀(edge pixel)이라고 지칭된다.

스트로크 폭 추정 과정은 도 14 내의 모든 에지 전경 픽셀에 대한 국부 스트로크 폭을 계산함으로써 시작한다. 이는 화살표가 시작하는 단일 전경 픽셀에 대해 도 15에 예시된 바와 같이 모든 가능한 방향으로 스트로크 폭을 계산함으로써 달성될 수 있다.

선택된 전경 픽셀에서 시작하면서 90도 방향으로의 인접 픽셀이 검사된다. 배경 픽셀에 도달하기 전에 수직 방향으로 일련의 3 개의 연속 전경 픽셀이 존재한다. 마찬가지로, 0도 방향으로의 2 개의 전경 픽셀, 45도 방향으로의 1 개의 전경 픽셀, 및 135도 방향으로 연장하는 3 개의 전경 픽셀이 존재한다. 이들 네 개의 값 중에서, 선택된 픽셀에 대한 국부 스트로크 폭으로서 가장 작은 값(이 경우에 1)이 선택된다. 이러한 동일한 과정이 모든 에지 픽셀에 적용되며, 그에 따라 한 세트의 국부 스트로크 폭들이 생성된다. 텍스트의 전체 스트로크 폭의 양호한 추정은 이러한 세트의 값들의 중간이며, 이는

로 표기된다.

일단

가 계산되면, 텍스트 영상의 품질을 검사하기 위해 모든 필요한 데이터가 이용 가능하다.

가 어떤 미리 정해진 문턱

보다 작으면, 영상은 낮은 품질의 영상으로 간주될 수 있다.

의 선택은 프로세스의 나머지에 영향을 미친다. 더 작은 값의

가 선택될 수록 점점 더 적은 갯수의 본래의 라인 영상이 낮은 품질로 생각될 것이다. 이는 더 작은 양의 다음의 처리를 암시하지만 그것은 또한 일부 본래의 라인 영상을 개선되지 않은 상태로 남긴다. 반면에, 더 큰 값의

가 선택되면, 더 많은 처리 전력을 댓가로 하여 더 많은 갯수의 본래의 라인이 개선될 것이다. 일부 구현에서, 적합한 절충 값은 범위

내에 있다.

일단 낮은 품질의 영상이 검출되면, 텍스트 개선 방법이 적용될 수 있다. 텍스트 개선을 위한 두 개의 예시적인 방법이 이하에 설명될 것이다. 제 1 방법은 매우 정확하지만 요구된 처리 전력의 면에서 비싼 반면, 제 2 방법은 보다 효율적이지만 다소 덜 정확하다.

정확한 텍스트 개선

텍스트 개선 컴포넌트로 통과된 영상은 어떤 미리 정해진 문턱보다 작은 스트로크 폭

을 갖는다. 이는 처리에서 오직 작은 자유도가 존재한다는 것을 암시한다. 이러한 문제를 극복하기 위한 하나의 방식은 영상 보간을 수행하는 것이다. 영상 보간은 영상의 해상도를 증가시키기 위한 기법이다. 많은 수의 보간 기법이 이용 가능하지만, 하나의 적합한 예는 양선형 보간(bilinear interpolation)이며, 이는 매우 간단하지만 텍스트 개선 프로세스의 필요성에 부응하기에 충분히 강력하다.

예를 들어 두 개의 (x 및 y) 방향으로 영상의 해상도가 2배만큼 증가되도록 영상이 보간된다고 가정하자. 이는 원본 영상 내의 각각의 픽셀이 보간된 영상 내의 한 세트의 네 개인 픽셀들로 매핑되는 것을 의미한다. 이런 프로세스는 도 16에 예시된다.

양선형 보간 프로세스의 제 1 단계는 원본 영상 내의 좌표 (x,y)의 픽셀 값을 출력 영상 내의 좌표 (2x,2y)로 매핑하는 것이다. 이런 프로세스는 도 17a에 도시된다. 작은 쉐이디드 직사각형(shaded rectangular)을 포함하는 픽셀은 아무런 값이 할당되지 않은 픽셀이다. 이런 방식으로 출력 픽셀들 중 1/4의 출력 픽셀들은 올바른 픽셀 값을 할당받는다. 매핑 또는 복사는 두 개의 할당된 픽셀들 사이에 위치된 출력 영상 내의 일부 픽셀(이들은 적어도 하나의 짝수 좌표를 갖는 픽셀임)을 산출한다는 것을 주목하자. 이들 픽셀의 값은 그들의 인접하는 픽셀에 할당된 평균 값으로서 계산될 수 있다(도 17b 참조). 이 시점에서, 출력 영상 내에서 오직 홀수 좌표를 갖는 픽셀만이 계속하여 할당되지 않는다. 이들 픽셀의 값은 4 개의 이웃들의 세트(4-neighbors set) 내의 픽셀의 모든 픽셀 값의 평균으로 계산될 수 있다. 양선형 보간 프로세스에서 이런 최종 단계는 보간된 영상(도 17c)를 산출한다. 도 17c 내의 최종 영상 내의 일부 픽셀에는 값이 할당되지 않는데, 왜냐하면 그들의 값은 도면에 도시되지 않은 픽셀 값에 의존하기 때문이다.

도 18의 하부는 도면의 상부에 도시된 텍스트 영상에 보간 프로세스를 적용한 결과를 도시한다.

낮은 품질의 텍스트 영상에 영상 보간을 적용하는 것으로부터 발생하는 하나의 유리한 부작용은 보간 프로세스의 본질적으로 평활화 효과이다. 이는 텍스트 색상 강도에서 더 작은 변동량을 갖는 영상을 산출하며, 이는 낮은 품질의 텍스트와 함께 문제들 중 하나의 문제였다.

이 시점에서, 텍스트 개선 프로세스 내에서, 보간된 영상에 대하여 다음의 정보들이 공지된다.

- 배경 라인 프로파일

- 전경 라인 프로파일

- 스트로크 폭

임계 처리 알고리즘이 텍스트의 침식 버전(eroded version)을 생성하므로,

보다 작은 모든 픽셀 값은 텍스트의 일부로서 안전하게 간주될 수 있으며, 0의 값을 할당받는다. 마찬가지로,

보다 큰 값을 갖는 픽셀은 배경 픽셀로 분류될 수 있으며, 255의 값을 할당받는다. 그러나,

로부터

까지의 범위 내의 값을 갖는 픽셀은 분류 면에서 애매하며, 그들이 텍스트에 속하는지 또는 배경에 속하는지 여부를 판단하기 위해 추가 처리가 필요하다.

관리 가능하고 편리한 방식으로 이들 픽셀을 분류하기 위해, 픽셀 색상 해상도는 수학식

을 사용하여 전술된 불확정 범위(indeterminate range)에 걸쳐 유한 갯수 n의 강도 간격으로 분할될 수 있는데, 여기서

이고,

이다.

강도 간격의 크기를 결정하는 매개변수는 n이며, 이는 적은 갯수의 강도 간격을 산출하기 위해 선택되어야 한다. 일부 구현에서, 양호한 선택은 예를 들어

일 수 있다. 도 19 및 도 20과 관련하여 설명될 방식으로 텍스트의 품질을 개선하기 위해 강도를 n 간격으로 분할함으로써 색상 해상도를 감소시키는 것이 사용될 수 있다.

텍스트 개선 프로세스는 이제 도 19 내의 문자 F에 적용될 것이다. 도 20은 이런 문자에 픽셀들을 추가함으로써 프로세스를 도시한다. 제 1 간격

내의 강도를 갖는 픽셀들이 도 20 내의 최좌측 문자에 추가된다. 제 2 간격

내의 강도를 갖는 픽셀들이 도 20 내의 좌측으로부터 두 번째 문자에 추가된다. 도면 내의 각각의 다음의 문자에 각각의 다음으로 더 높은 강도 간격 내의 픽셀들을 추가함으로써 이런 프로세스가 반복된다.

도 20은 이런 방식으로 픽셀들을 추가한 결과를 명백하게 예시한다. 특히, 문자 F는 픽셀들이 추가됨에 따라 점점 더 확연하게 된다. 개별 문자를 개선하거나 재구성하기 위해 이런 프로세스가 사용될 수 있는 것이 명백한 반면, 문자가 배경으로의 "유출(leaking)"을 시작하거나 서로 접촉하기 시작할 때 문제가 발생한다. 이를 방지하기 위해, 추가 픽셀이 추가되지 않아야 할 때를 판단하기 위한 어떤 종류의 정지 기준이 채용되어야 한다. 다음의 정의는 적절한 정지 기준을 획득하는데 유용하다.

정의 12.

가 연결 부분(connected component)이라고 하자.

의 두 개의 상이한 에지 픽셀로부터 동일하게 이격된 연결 부분에 속하는 한 세트의 픽셀들은

의 골격(skeleton)으로 지칭된다.

도 21a는 연결 부분의 일 예를 도시한다. 도 21b 내에서 더 짙은 픽셀은 이런 연결 부분을 위한 에지 픽셀이며, 도 21c 내에서 교차 빗금형 픽셀은 연결 부분의 골격을 표시한다.

관찰할 하나의 사항은 픽셀 추가 프로세스가 골격에 거의 영향을 미치지 않는다는 것이다. 이는 도 22에서 알 수 있으며, 도 22는 도 20의 픽셀 추가 프로세스에 상응하는 연결 부분의 골격을 도시한다. 각각의 픽셀 추가 단계에서, 연결 부분의 골격은 거의 동일하게 유지된다. 변화하는 것은 골격 픽셀과 에지 픽셀 사이의 거리이다. 추가되는 픽셀이 더 많을수록 골격 픽셀과 에지 픽셀 사이의 거리가 점점 더 멀어진다.

이 시점에서, 이런 연결 부분의 스트로크 폭

이 이미 계산되었다는 것을 상기하는 것이 중요하다. 일부 적은 갯수의 골격 픽셀이 에지 픽셀로부터

의 거리를 넘을 때 픽셀 추가 프로세스가 종료되는 것을 요구하는 것이 타당하다. 이런 값이 초과된다면, 연결 부분은 배경으로의 "유출"을 시작할 것이다. 따라서, 이 시점에서 더 이상 픽셀이 문자에 추가되지 않아야 한다.

이전의 논의를 명심하면서, 텍스트 개선 알고리즘이 다음과 같이 형성될 수 있다.

1) 두 배 더 높은 해상도로 낮은 품질의 텍스트 영상을 보간함.

2) 유한 갯수의 강도 간격을 정의함으로써 텍스트 영상의 색상 해상도를 감소시킴.

3) 오직 가장 짙은 픽셀(예를 들어, 0의 강도를 갖는 픽셀)로부터만 형성된 영상 내의 모든 연결 부분을 식별함. 이들 연결 부분은 기저 연결 부분으로 지칭될 것이다.

4) 각각의 기저 연결 부분에 대해, 다음의 단계를 수행함.

a. 연결 부분의 골격을 계산함.

b. 골격 내의 픽셀이 에지 픽셀로부터 거리

미만으로 이격되며, 다음의 강도 간격(

)에 속하는 인접 픽셀을 현재의 연결 부분에 추가함으로써 새로운 연결 부분을 생성함.

c. 정지 기준이 만족될 때까지 단계 a 및 단계 b를 반복함. 즉, 에지 픽셀로부터

의 거리를 초과하여 이격된 골격 픽셀이 존재할 때 프로세스가 정지된다.

일단 모든 기저 연결 부분이 이런 방식으로 처리되면, 텍스트 개선 프로세스가 종료된다. 도 13에 도시된 영상에 이러한 프로세스를 적용한 결과는 도 23에 예시된다.

효율적인 텍스트 개선

스트로크 회복을 사용하여 텍스트 영상을 개선하기 위한 이미 설명된 알고리즘은 종종 매우 양호한 결과를 제공할 수 있다. 그러나, 하나의 결점은 그의 계산의 복잡성이다. 이 섹션에서, (처리 전력 면에서) 비용이 덜 들지만 대등한 품질을 갖는 하나의 변형 알고리즘이 설명될 것이다.

이전의 접근방법에서와 같이, 이런 접근방법은 영상 보간을 수행하며, 전술된 방식으로 색상 해상도를 유한 개수의 간격으로 분할한다. 그러나, 이전 섹션에서 설명된 알고리즘은 기저 연결 부분에 적용된 반복 프로세스로 인해 시간 소모적이며, 이는 골격의 계산을 수반한다. 골격이 정지 기준의 필수 요소이므로, 알고리즘의 계산의 복잡성을 감소시키기 위해 다른 변형 정지 기준이 채용될 수 있다. 하나의 접근방법이 후술된다.

색상 해상도를 감소시킨 후에, 작은 세트의 색상들이 남게 된다. 255의 강도를 갖는 모든 픽셀(백색 픽셀)은 배경의 일부로 간주된다. 0의 강도를 갖는 모든 픽셀(흑색 픽셀)은 텍스트 픽셀로 간주된다. 애매한 것은 그레이 픽셀(gray pixel)이다. 다시 도 19를 참조하면, 골격의 추정을 획득하면서 골격의 정확한 계산을 수행할 필요성을 방지하는 하나의 방식은 그 픽셀에 중심 설정되면서 (각각의 그레이 픽셀에 대해) 완전히 비백색 픽셀(non-white pixel)로 구성된 최대 직사각형을 발견하는 것이다.

가 픽셀

에 대한 직사각형의 차원이라고 하자.

를 만족하는 직사각형을 갖는 모든 픽셀은 거의 확실하게 텍스트의 일부이거나 또는 배경 내의 평탄한 잡음 영역이다. 이런 세트는

로 표기된다. 이제,

을 만족시키는 모든 픽셀

이 세트에 추가되며, 여기서

이다. 즉, 세트

내부의 픽셀의 근처로부터의 모든 픽셀이 추가되며, 이는 전술된 알고리즘 내에서의 픽셀 추가 과정에 대한 대안이다. 배경으로의 "유출"이 발생하지 않는다는 것을 보장하기 위해, 세트

는 필터링을 거칠 수 있다. 이런 방식으로, 최근접 에지로부터의 거리가

보다 크면 세트로부터의 픽셀이 제거될 수 있다. 이런 방식으로 평탄한 잡음 영역이 텍스트로부터 제거된다.

이런 알고리즘은 전술된 더 정확한 알고리즘과 유사하다. 그러나, 하나의 간격 내의 각각의 세트의 픽셀들이 추가되기 전에 반복적인 계산을 수행하는 대신에, 더 적은 양의 처리 시간을 야기하면서 단일 단계 근사(one-step approximation)가 적용된다. 낮은 품질의 텍스트 영상에 대해 이런 알고리즘을 적용함으로써 달성된 결과는 정확한 알고리즘을 적용함으로써 달성된 결과와 유사하다는 것이 발견되었으며, 이는 도 23에 도시된다.

도 24는 광학 문자 인식되는 텍스트 영상에 대해 전술된 텍스트 개선 프로세스를 수행할 수 있는 영상 처리 장치(300)의 일 예를 도시한다. OCR 엔진 내에 통합될 수 있는 장치는 텍스트의 본래의 라인을 갖는 입력 영상을 수신하기 위한 입력 컴포넌트(202)를 포함한다. 장치는 배경 및 전경 라인 프로파일링 컴포넌트(204), 영상 품질 검출 컴포넌트(206), 임계 처리 컴포넌트(208) 및 스트로크 개선 컴포넌트(210)를 또한 포함한다. 출력 컴포넌트(212)는 개선된 영상을 출력으로 생성하며, 이는 OCR 엔진의 다음의 컴포넌트에 의해 채용될 수 있다.

도 25는 광학 문자 인식되야 하는 텍스트 영상을 개선하기 위한 전체 방법의 일 예를 도시하는 흐름도이다. 방법은 도 24에 도시된 영상 처리 장치에 의해 구현될 수 있다. 방법은 텍스트의 본래의 라인의 영상이 입력 컴포넌트(202)에 의해 수신될 때 단계 305에서 시작한다. 그런 다음, 라인 프로파일링 컴포넌트(204)는 단계 310에서 본래의 라인에 대한 에지 검출을 수행하여 에지 공간 내의 본래의 라인의 표시를 생성한다. 그런 다음, 단계 315에서, 라인 프로파일링 컴포넌트(204)는 에지 공간 내에서 본래의 라인의 표시에서 발생하는 각각의 연결 부분을 식별한다. 단계 310 및 단계 315에서 획득된 정보를 사용하여, 라인 프로파일링 컴포넌트(204)는 단계 320에서 배경 라인 프로파일과 전경 라인 프로파일을 전술된 방식으로 결정한다. 일단 라인 프로파일들이 결정되면, 영상 품질 검출 컴포넌트(206)는 단계 325에서 라인 프로파일들에 기반하여 영상의 품질이 영상의 배경 부분 또는 전경 부분에 픽셀을 할당하기에 충분한지 여부를 판단한다. 전술된 바와 같이, 영상 품질을 결정하기 위해 사용될 수 있는 하나의 기준은 연결 부분의 스트로크 폭이다. 영상 품질이 판단 단계 330에서 충분히 높다고 발견되면, 단계 335에서 임계 처리 컴포넌트(208)에 의해 영상의 전경 부분 또는 배경 부분에 픽셀이 할당된다. 반면에, 영상 품질이 충분히 높지 않으면, 연결 부분의 스트로크를 개선하기 위해 단계 340에서 스트로크 개선 컴포넌트(210)에 의해 영상 개선이 수행된다. 마지막으로, 출력 컴포넌트(212)는 단계 345에서 개선된 영상을 생성하며, 이는 OCR 엔진의 다음의 컴포넌트에 의해 채용될 수 있다.

본 출원에서 사용된 바와 같이, 용어 "컴포넌트", "모듈", "시스템", "장치", "인터페이스" 등은 컴퓨터 관련 실체, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어, 또는 실행 중인 소프트웨어를 지칭하는 것으로 일반적으로 의도된다. 예를 들어, 컴포넌트는 프로세서 상에서 실행 중인 프로세스, 프로세서, 객체(object), 실행 가능한 것, 실행의 쓰레드(a thread of execution), 프로그램, 및/또는 컴퓨터일 수 있지만, 그에 제한되지는 않는다. 예를 들어, 제어기 상에서 실행 중인 애플리케이션 및 제어기는 컴포넌트일 수 있다. 하나 이상의 컴포넌트가 프로세스 및/또는 실행의 쓰레드 내에 존재할 수 있으며, 컴포넌트는 하나의 컴퓨터 내에 국한될 수 있고/있거나 두 개 이상의 컴퓨터 사이에서 분산될 수 있다.

또한, 청구된 발명 대상은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 임의의 조합을 생성하여 개시된 청구된 발명 대상을 구현하도록 컴퓨터를 제어하기 위해 표준 프로그래밍 및/또는 엔지니어링 기법을 사용하는 방법, 장치, 또는 제조 물품으로서 구현될 수 있다. 여기에서 사용된 바와 같은 용어 "제조 물품"은 임의의 컴퓨터 판독 가능한 장치, 캐리어, 또는 미디어로부터 접근 가능한 컴퓨터 프로그램을 둘러싸도록 의도된다. 예를 들어, 컴퓨터 판독 가능한 미디어는 자기 저장 장치(예를 들어, 하드 디스크, 플로피 디스크, 자기 스트립 등), 광학 디스크(예를 들어, CD(compact disc), DVD(digital versatile disk) 등), 스마트 카드, 및 플래시 메모리 장치(예를 들어, 카드, 스틱, 키 드라이브 등)를 포함할 수 있지만, 그에 제한되지 않는다. 물론, 당업자는 청구된 발명 대상의 범위 또는 사상으로부터 벗어나지 않으면서 이런 구성에 대한 많은 수정이 이루어질 수 있다는 것을 인지할 것이다.

비록 발명 대상이 구조적 특징 및/또는 방법적 동작에 특정한 언어로 설명되었지만, 첨부된 특허청구범위 내에 정의된 발명 대상이 전술된 특정 특징 또는 동작에 반드시 제한될 필요가 없다는 것이 이해되어야 한다. 오히려, 전술된 특정 특징 및 동작은 특허청구범위를 구현하는 예시적인 형태로서 개시된다.

Claims

광학 문자 인식되는 텍스트 영상을 개선하기 위한 방법으로서,
텍스트의 본래의 라인(native line)을 포함하는 영상을 수신하는 단계,
상기 영상 내에서 상기 본래의 라인에 따라 평균 배경 강도를 나타내는 배경 라인 프로파일을 결정하는 단계,
상기 영상 내에서 상기 본래의 라인에 따라 평균 전경 강도를 나타내는 전경 라인 프로파일을 결정하는 단계,
상기 배경 라인 프로파일과 상기 전경 라인 프로파일에 적어도 부분적으로 기반하여 상기 영상의 배경 또는 전경 부분에 상기 영상 내의 픽셀을 할당하는 단계, 및
상기 영상의 상기 배경 부분에 지정된 상기 픽셀들의 강도를 텍스트를 포함하지 않은 상기 영상의 일부분을 나타내는 미리 정해진 강도로 조정하는 단계를 포함하는
방법.
제 1 항에 있어서,
상기 픽셀들을 할당하는 단계는
선택된 매개변수보다 작은 강도를 갖는 상기 영상 내의 픽셀을 상기 영상의 전경 부분에 할당하되, 상기 선택된 매개변수는 상기 배경 라인 프로파일과 상기 전경 라인 프로파일로부터 적어도 부분적으로 결정되는 단계, 및
상기 선택된 매개변수보다 큰 강도를 갖는 상기 영상 내의 픽셀을 상기 영상의 배경 부분에 할당하는 단계를 더 포함하는
방법.
제 2 항에 있어서,
상기 선택된 매개변수는 상기 배경 라인 프로파일과 상기 전경 라인 프로파일의 평균인
방법.
제 2 항에 있어서,
상기 선택된 매개변수는 조정 가능한
방법.
제 1 항에 있어서,
상기 영상 내의 텍스트를 나타내는 연결 부분의 평균 또는 중간 스트로크 폭을 추정하는 단계를 더 포함하는
방법.
제 1 항에 있어서,
에지 공간 내에 상기 텍스트의 본래의 라인을 나타내는 단계를 더 포함하는
방법.
제 6 항에 있어서,
에지 공간 내에 표시된 상기 텍스트의 본래의 라인 내에 연결 부분을 검출하는 단계를 더 포함하는
방법.
광학 문자 인식되는 텍스트 영상을 개선하기 위한 방법으로서,
텍스트의 본래의 라인을 포함하는 영상을 수신하는 단계,
상기 영상 내에서 상기 본래의 라인에 따라 평균 배경 강도를 나타내는 배경 라인 프로파일을 결정하는 단계,
상기 영상 내에서 상기 본래의 라인에 따라 평균 전경 강도를 나타내는 전경 라인 프로파일을 결정하는 단계,
상기 영상 내의 텍스트를 나타내는 연결 부분의 평균 또는 중간 스트로크 폭을 추정하는 단계, 및
상기 평균 또는 중간 스트로크 폭이 임계값보다 작으면 텍스트 품질을 개선하는 단계를 포함하는
방법.
제 8 항에 있어서,
상기 전경 강도 값에 할당된 각각의 픽셀에 대해 국부 스트로크 폭을 결정함으로써 상기 영상 내의 텍스트를 나타내는 상기 연결 부분의 평균 또는 중간 스트로크 폭을 추정하는 단계, 및 상기 평균 또는 중간 스트로크 폭이 임계값보다 작으면 텍스트 품질을 개선하는 단계를 더 포함하는
방법.
제 8 항에 있어서,
텍스트 품질을 개선하는 단계는 영상 해상도를 증가시키기 위해 영상 보간을 수행하는 단계를 포함하는
방법.
제 10 항에 있어서,
선택된 매개변수보다 작은 강도를 갖는 상기 영상 내의 픽셀을 상기 영상의 전경 부분에 할당하되, 상기 선택된 매개변수는 상기 배경 라인 프로파일과 상기 전경 라인 프로파일로부터 적어도 부분적으로 결정되는 단계,
상기 배경 라인 프로파일보다 큰 강도를 갖는 상기 영상 내의 픽셀을 상기 영상의 상기 배경 부분에 할당하는 단계, 및
점차 높은 강도 내의 복수의 세트의 픽셀을 점차 추가함으로써 상기 선택된 매개변수와 상기 배경 라인 프로파일 사이의 강도를 갖는 선택된 픽셀을 에지 공간 내에 표시된 상기 본래의 라인의 기저 연결 부분에 할당하되, 각각의 세트는 유한 세트의 강도 간격 중 하나의 강도 간격 내의 강도를 갖는 픽셀을 정의하는 단계를 더 포함하는
방법.
제 11 항에 있어서,
상기 기저 연결 부분의 골격 픽셀과 에지 픽셀 사이의 거리가 상기 평균 또는 중간 스트로크 폭의 절반보다 클 때 선택된 픽셀을 상기 기저 연결 부분 중 적어도 하나의 기저 연결 부분에 할당하는 것을 종결하는 단계를 더 포함하는
방법.
광학 문자 인식되는 텍스트 영상을 개선하는 시스템으로서,
텍스트의 본래의 라인을 갖는 입력 영상을 수신하기 위한 입력 컴포넌트,
상기 영상 내에서 각각 평균 배경 강도 및 평균 전경 강도를 나타내는 배경 라인 프로파일 및 전경 라인 프로파일을 각각 결정하기 위한 배경 및 전경 라인 프로파일링 컴포넌트,
상기 영상의 품질이 상기 영상의 배경 부분 또는 전경 부분에 픽셀을 할당하기에 충분한지 여부를 판단하기 위한 영상 품질 검출 컴포넌트,
상기 배경 라인 프로파일 및 상기 전경 라인 프로파일에 기반하여 상기 영상의 상기 배경 부분 또는 상기 전경 부분에 픽셀을 할당하기 위한 임계 처리 컴포넌트, 및
상기 영상 품질 검출 컴포넌트가 상기 영상의 상기 품질이 임계값 미만이라고 판단하면 상기 영상 내의 텍스트를 나타내는 연결 부분의 스트로크를 개선하기 위한 스트로크 개선 컴포넌트를 포함하는
시스템.
제 13 항에 있어서,
상기 영상 품질 검출 컴포넌트는, 상기 영상 내의 텍스트를 나타내는 연결 부분의 평균 또는 중간 스트로크 폭을 추정하고 상기 평균 또는 중간 스트로크 폭과 상기 임계값을 비교함으로써 상기 영상의 상기 품질을 결정하는
시스템.
제 13 항에 있어서,
상기 배경 및 전경 라인 프로파일 컴포넌트는 에지 공간 내에 나타낸 상기 본래의 라인의 각각을 따라 복수의 국부 영역에 대해 복수의 배경 및 전경 강도 값을 결정하도록 더 구성되며, 각각의 국부 영역은 미리 정해진 값보다 작거나 같은 치수를 갖는
시스템.