KR101727137B1

KR101727137B1 - 텍스트 영역의 추출 방법, 추출 장치 및 이를 이용한 번호판 자동 인식 시스템

Info

Publication number: KR101727137B1
Application number: KR1020100127723A
Authority: KR
Inventors: 윤영우; 윤호섭; 반규대; 이재연; 김도형; 지수영; 김재홍; 손주찬
Original assignee: 한국전자통신연구원
Priority date: 2010-12-14
Filing date: 2010-12-14
Publication date: 2017-04-14
Also published as: US20120148101A1; KR20120066397A

Abstract

제 1 이미지의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스에 저장된 복수개의 텍스트 영역 데이터에 기초하여, 입력된 제 2 이미지 내에서 텍스트 영역 예측값을 생성하는 단계와 입력된 제 2 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하는 단계와 생성된 텍스트 영역 예측값 및 텍스트 인식 결과값을 조합하여 제 2 이미지 내에서 텍스트 영역을 선택하는 단계를 포함하는 것을 특징으로 하는 텍스트 영역 추출 방법이 개시된다.

Description

텍스트 영역의 추출 방법, 추출 장치 및 이를 이용한 번호판 자동 인식 시스템{Method and apparatus for extracting text area, and automatic recognition system of number plate using the same}

본 발명은 외부 자연 영상으로부터 촬영한 이미지에서 문자, 숫자 등의 텍스트 영역을 추출하는 방법, 장치 및 이를 이용한 번호판 자동 인식 시스템 에 관한 것이다.

일반적으로 카메라의 영상을 이용한 번호판 자동 인식 시스템은 크게 세가지 파트로 구성된다. (1)첫 번째로 외부 자연 영상에서 자동차 등의 번호판 영역을 검출하고, (2)다음으로 검출된 번호판 영역에서 문자, 숫자 등의 텍스트 영역을 추출한다. (3)그런 다음 마지막으로 검출된 텍스트가 어떤 문자, 숫자인지를 식별하게 된다.

이들 과정 중에 문자, 숫자 등의 텍스트 영역을 추출하는 구성에 있어서 종래의 문자 영역 추출 방법에서는 번호판 이미지를 대상으로 하여 (i)이진화(Binarization)를 수행하고, (ii)연결 영역 분석(Connected Component Analysis)을 통하여 노이즈(noise) 영역을 제거함으로써 문자가 위치한 영역을 분리해 내는 기술 등이 대표적으로 활용된다.

그러나 이런 종래의 방법은 번호판 이미지가 깨끗하고 해상도가 높을 때는 신뢰성 있게 동작하지만, 영상의 해상도가 낮거나 번호판에 이물질 등이 묻어 있는 경우에는 이진화를 통해서 문자 영역을 분리하기 힘들어 진다. 또한 영상 노이즈로 인해 인접한 숫자 영역이 서로 겹쳐져 합해질 수도 있고 하나의 숫자 영역임에도 불구하고 분리될 수도 있다.

즉, 이미지 영상에서 영역을 나누어 이진화를 하는 지역 이진화(local binarization) 또는 이진화된 영역을 늘이거나 줄이는 모폴로지 연산(morphology operation) 등을 통하여 문자 영역의 추출 성능을 높일 수는 있지만 한계가 있다.

따라서 본 발명에서는 번호판 이미지 등에서 텍스트 영역을 추출하는 방법으로, 텍스트 인식 정보와 번호판의 텍스트 위치 및 크기의 데이터베이스에 기초한 예측 정보를 이용하여 텍스트 영역을 추출함으로써 해상도가 높지 않거나 노이즈가 많은 번호판 이미지에서도 보다 정확하게 문자, 숫자 등의 텍스트를 추출하는 방법을 제안하는데 목적이 있다.

상기 목적을 달성하기 위하여, 본 발명의 일 실시예는 제 1 이미지의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스에 저장된 복수개의 텍스트 영역 데이터에 기초하여, 입력된 제 2 이미지 내에서 텍스트 영역 예측값을 생성하는 단계; 상기 입력된 제 2 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하는 단계; 및 상기 생성된 텍스트 영역 예측값 및 텍스트 인식 결과값을 조합하여 상기 제 2 이미지 내에서 텍스트 영역을 선택하는 단계를 포함하는 것을 특징으로 하는 텍스트 영역 추출 방법을 제공한다.

상기 기하학적 정보는 상기 텍스트 영역의 위치 및 크기 정보이며, 상기 텍스트 영역 예측값을 생성하는 단계는 상기 텍스트 영역의 위치 및 크기 정보를 가지는 데이터베이스에 저장된 N 개의 텍스트 영역 데이터와의 유사성에 기초하여 상기 예측값을 생성하는 것이 바람직하며, 상기 텍스트는 문자, 숫자, 기호 및 부호 중 적어도 하나 이상을 포함하는 유의미한 시각 정보인 것이 바람직하다.

상기 데이터베이스에서 기 보유한 상기 제 1 이미지의 텍스트 영역에 대한 위치 및 크기 정보와 상기 생성된 텍스트 인식 결과값은, 상기 제 2 이미지 내에서 텍스트 영역을 선택하기 위하여 반복적으로 이용되는 학습 정보인 것이 바람직하다.

상기 데이터베이스는, 상기 제 1 이미지의 텍스트 영역에 대한 위치 및 크기 정보를 벡터 포맷으로 변환한 수치 정보의 형태로 가지고 있는 것이 바람직하다.

상기 벡터 포맷은, 상기 텍스트 영역에 대한 절대값 또는 다른 텍스트 영역과의 위치적 상대값을 포함하는 포맷인 것이 바람직하다.

상기 텍스트 영역 예측값을 생성하는 단계는, 상기 데이터베이스 및 상기 제 2 이미지에서의 텍스트 추출 정보를 바탕으로, 상기 텍스트 영역의 결측값(missing value)을 예측하여 결측값 추정치를 생성하는 단계; 및 상기 예측된 모든 결측값 추정치를 바탕으로 상기 결측값 추정치에 대한 추정 확률을 기록한 제 1 스코어 맵을 생성하는 단계를 더 포함하는 것이 바람직하다.

상기 텍스트 인식 결과값을 생성하는 단계는, 상기 제 2 이미지 내의 모든 영역에 대하여 텍스트 존재 여부를 인식하며, 상기 텍스트 영역에 대한 절대값 또는 상대값은 상기 제 2 이미지 내에서 수평 및 수직의 모든 위치값을 포함하며, 텍스트 영역이 가질 수 있는 넓이 및 높이의 최소 내지 최대 크기를 포함하는 것이 바람직하다.

상기 텍스트 인식 결과값을 생성하는 단계는, 상기 인식된 텍스트의 존재 여부의 추정 확률을 기록한 제 2 스코어 맵을 생성하는 단계를 더 포함하는 것이 바람직하다.

상기 텍스트 영역을 선택하는 단계는, 상기 생성된 동일한 규격의 제 1 스코어 맵 및 제 2 스코어 맵을 합하여 단일한 제 3 스코어 맵을 생성하는 단계를 더 포함하며, 상기 생성된 제 3 스코어 맵에서 가장 높은 스코어를 가지는 텍스트 영역을 선택하는 것이 바람직하다.

상기 텍스트 영역을 선택하는 단계는, 만약 상기 생성된 제 3 스코어 맵에서 가장 높은 스코어를 가지는 텍스트 영역이, 이미 다른 텍스트의 영역으로 선택된 영역과 소정의 범위 이상 겹치는 경우에, 상기 텍스트 영역의 선택 가능한 후보에서 제외시키는 것이 바람직하다.

상기 텍스트 영역 선택 단계 이후에, 상기 텍스트 영역의 추출 방법이 반복적으로 수행되어 상기 제 2 이미지 내에서 텍스트 영역 추출 작업이 완료되는지를 판단하는 단계를 더 포함하는 것이 바람직하다.

상기 제 2 이미지는 표지판의 이미지이며, 상기 텍스트 영역 추출 작업이 완료되는지를 판단하는 단계는 각 국가에서의 표지판 표시 규칙에 따라 상기 추출되는 텍스트 영역의 개수를 비교하는 것이 바람직하다.

한편, 상기 목적을 달성하기 위하여, 본 발명의 다른 실시예는 제 1 이미지의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스; 상기 데이터베이스에 저장된 복수개의 텍스트 영역 데이터에 기초하여, 입력된 제 2 이미지 내에서 텍스트 영역의 결측값을 예측하여 결측값 추정치를 생성하는 결측값 예측부; 상기 예측된 결측값 추정치를 바탕으로 상기 결측값 추정치에 대한 추정 확률을 기록한 스코어 맵을 생성하는 제 1 스코어 맵 연산부; 상기 입력된 제 2 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하는 텍스트 인식부; 상기 인식된 텍스트의 존재 여부의 추정 확률을 기록한 스코어 맵을 생성하는 제 2 스코어 맵 연산부; 및 상기 생성된 제 1 스코어 맵 및 제 2 스코어 맵을 조합하여 상기 제 2 이미지 내에서 텍스트 영역을 선택하는 텍스트 영역 선택부를 포함하는 것을 특징으로 하는 텍스트 영역 추출 장치를 제공한다.

한편, 상기 목적을 달성하기 위하여, 본 발명의 또 다른 실시예는 카메라를 이용하여 촬영한 외부 영상으로부터 번호판 이미지를 검출하는 번호판 검출기; 기 저장된 번호판 이미지 내의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스에 기초하여 상기 검출된 번호판 이미지 내에서 텍스트 영역 예측값을 생성하고, 상기 번호판 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하고, 상기 생성된 텍스트 영역 예측값 및 텍스트 인식 결과값을 조합하여 상기 번호판 이미지 내에서 텍스트 영역을 선택하는 텍스트 영역 추출기; 및 상기 추출된 텍스트 영역 내에 표시된 텍스트를 식별하는 텍스트 식별기를 포함하는 것을 특징으로 하는 번호판 자동 인식 시스템을 제공한다.

나아가, 본 발명은 이러한 텍스트 영역의 추출 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

본 발명에 의하면, 번호판 문자 영역의 위치 및 크기 정보 데이터베이스와 문자 인식기의 결과를 반복적으로 이용함으로써 기존의 영상 처리 알고리즘을 이용한 문자 영역 추출 방법이 해상도가 낮거나 노이즈가 있는 영상에서 문자 영역을 정확히 추출하지 못하는 단점을 해결할 수 있다.

또한, 본 발명의 문자 영역 추출기는 (1)문자 영역 데이터베이스 및 (2)문자 인식기와 같은 학습 정보를 바탕으로 동작하므로 국가별로 다른 번호판을 인식하고자 할 경우에 학습 데이터를 교체하면 바로 적용 가능하다는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른, 텍스트 영역의 추출 방법을 설명하는 플로우 차트이다.
도 2는 본 발명의 일 실시예에 따른, 텍스트 영역의 위치 및 크기 정보를 모델링하는 예시 도면이다.
도 3은 본 발명의 일 실시예에 따른, 텍스트 검사 가능 영역에 대하여 텍스트 인식 여부를 판단하는 과정을 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른, 텍스트 영역의 추출 방법을 보다 상세히 설명하는 플로우 차트이다.
도 5는 본 발명의 일 실시예에 따른, 텍스트 영역의 추출 장치를 나타내는 기능 블록도이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

본 발명은 번호판 자동 인식 시스템의 동작 과정 중, 촬영된 번호판 이미지에서 문자, 숫자 등이 표시된 텍스트 영역의 추출에 관한 방법을 제안하며, 이러한 방법은 번호판의 영상 내에서의 (1)문자, 숫자 등의 텍스트 영역의 위치, 크기 정보의 데이터베이스를 바탕으로 하는 텍스트 영역 위치 예측 결과와 (2)텍스트 인식기의 인식 결과값을 결합하여 텍스트 영역을 추출함으로써 해상도가 낮거나 노이즈가 있는 번호판 이미지에 대해서도 높은 정확도로 문자, 숫자 등의 텍스트가 표시된 영역을 추출할 수 있다.

예컨대, 번호판이 경우에 따라서는 일부분이 찌그러진 경우도 있고, 전체적으로 찌그러진 경우도 있을 수 있다. 이런 경우에 찌그러진 부분에 대한 영상 보정이 어느 정도 이루어질 수는 있지만, 이미 촬영된 영상에 대해 추가적으로 이루어지는 영상 보정 처리로는 결국 해당 문자가 정확히 5인지 8인지를 식별함에 있어서 정확도가 떨어지게 된다. 따라서, 본 발명에서는 번호판에 표시된 문자, 숫자의 영역을 정확히 추출하여 시스템에서 최종적으로 문자를 정확하게 식별하는데 큰 도움을 제공하고자 한다.

본 발명에서 추출 및 식별하고자 하는 텍스트는 문자, 숫자, 기호, 부호 또는 이들의 조합으로서 유의미한 시각 정보를 말하며, 이하 "문자 영역"으로 기술하는 경우에도 상기 텍스트의 영역의 일 실시예일뿐 숫자, 기타 다른 시각 정보에 경우를 포함한다고 가정한다.

도 1은 본 발명의 일 실시예에 따른, 텍스트 영역의 추출 방법을 설명하는 플로우 차트이다.

본 발명의 일 실시예는 제 1 이미지의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스에 저장된 복수개의 텍스트 영역 데이터에 기초하여, 제 2 이미지 내에서 텍스트 영역 예측값을 생성하는 단계(110)와 입력된 제 2 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하는 단계(120), 그리고 이렇게 생성된 텍스트 영역 예측값 및 텍스트 인식 결과값을 조합하여 제 2 이미지 내에서 텍스트 영역을 선택하는 단계(130)를 포함함으로써, 텍스트 영역을 추출하는 방법을 수행한다.

예를 들어, 자동차 번호판의 문자 영역을 추출하는 경우에 제 1 이미지는 다른 자동차 번호판의 촬영 이미지가 될 수 있으며, 여러 개의 이와 같은 번호판의 이미지에서 표시된 문자에 관한 문자 영역의 위치 및 크기 등의 기하학적인 정보를 데이터베이스로 구축하고 있을 때, 이와 같은 데이터베이스에서 유사한 형태의 문자 영역 데이터를 이용하여 현재 입력된 번호판 이미지 내에서 문자 영역의 예측값을 생성할 수 있는 것이다.

즉, 단계 110에서는 문자 영역 데이터가 저장된 데이터베이스를 활용하고 번호판의 문자 영역이 이루는 기하학적 정보의 유사성을 이용하여 새롭게 입력된 번호판 이미지에서 문자 영역들의 위치, 크기 정보를 추측한다.

이를 위하여 먼저 수행되어야 할 작업으로서 앞서 언급한 데이터베이스가 구축되어야 하므로, N개 다수의 번호판 이미지와 문자 영역의 위치, 크기 정보를 이용하여 문자 영역의 위치, 크기 정보 데이터베이스를 생성한다. 이 때, 데이터베이스 생성을 위해서 번호판 이미지의 문자 위치, 크기 정보를 이후 단계에서 수행될 결측값(missing value) 예측에 유리한 수치 포맷으로 변환하여야 한다. 수치 변환의 일 예는 도2에서 설명한다.

도 2는 본 발명의 일 실시예에 따른, 텍스트 영역의 위치 및 크기 정보를 모델링하는 예시 도면이다.

도 2를 참고하면, 번호판 이미지(200) 내의 각 숫자(210 내지 240)는 현재 이미지 내에서의 위치, 크기 정보를 가지고 있다. 예를 들어, 번호판 이미지의 좌측 상단 포인트의 좌표를 (0,0) 이라고 할 때, 첫 번째 숫자(210) "1" 의 위치는 (x1, y1) 이고, 그 크기(넓이 및 높이)는 (w1, h1) 이다. 나머지 숫자(220 내지 240)들도 마찬가지로서 각각 위치 및 크기 정보를 가진다.

앞서 언급한 데이터베이스에는 이와 같은 형태의 다수의 텍스트 영역 데이터가 저장되며, 기록되어 있는 형태는 벡터 포맷이다. 이때, 벡터 포맷은 가장 간단하게는 각 문자의 정보를 이어 붙여서 (x1, y1, w1, h1, x2, y2, w2, h2, x3, y3, w3, h3, x4, y4, w4, h4) 와 같은 16차원 벡터로 표현할 수 있다. 또 다른 방법으로는 각 문자의 위치를 표현할 때 이전 문자와의 위치 차이를 기록할 수도 있다. 즉, (x1, y1, w1, h1, x2-x1, y2-y1, w2, h2, x3-x2, y3-y2, w3, h3, x4-x3 y4-y3 w4, h4) 와 같이 나타낼 수 있다. 즉, 데이터베이스는 문자 영역에 대한 위치 및 크기 정보를 벡터 포맷으로 변환한 수치 정보로서 가지고 있는 것이다.

이와 같이 벡터를 사용할 경우에는 번호판 이미지 내에서 문자들의 절대적인 위치보다는 각각의 문자들의 위치적 연관성에 더 많은 영향을 받게 되므로, 앞의 예시와 같은 총 4개 문자 중 하나의 문자 위치를 결측값으로 두고 예측하는 경우에 보다 정확한 결과를 얻을 수 있다.

한편, 상기 벡터의 표현 방법은 설명을 위한 예시일 뿐 다른 방법으로 위치 및 크기 정보 벡터를 구성할 수 있으며, 문자의 개수 또한 식별하고자 하는 번호판의 종류에 따라 달라질 수 있다.

앞서 데이터베이스의 구축 과정에 기술한 바와 같이, 상기와 같이 문자 영역의 위치 및 크기 벡터로 변환하는 과정을 거친 후에는 하나의 번호판 이미지가 하나의 벡터로 표시되게 되고, 학습하고자 하는 번호판 수가 N개일 경우, 총 N 개의 벡터가 데이터베이스에 저장된다.

다시 도 1의 단계 110을 설명하면, 이와 같이 생성된 데이터베이스와 현재 입력된 번호판 이미지에서의 문자 추출 정보를 바탕으로 결측값 예측을 시행한다. 설명을 위해 위의 예시에서 사용한 16차원의 벡터를 다시 이용하면, 가령 첫 번째, 두 번째, 그리고 네 번째 문자의 위치를 알고 있을 때, 세 번째 문자의 위치 및 크기 정보를 결측값 예측 방법을 이용하여 추정할 수 있다.

결측값 예측 방법으로 쉽게 이용할 수 있는 방법을 하나 예로 들자면, 결측값을 찾고자 하는 벡터에서 결측값이 아닌 차원의 정보를 데이터베이스의 문자 영역 데이터와 비교하여 유클리드 거리(Euclidean distance)가 작은 인스턴스(instance)들에서 결측값에 대응하는 차원의 정보를 가져와 결측값의 추정값으로 사용할 수 있다. 즉, 현재 번호판 이미지에서 알고 있는 문자 정보를 바탕으로 데이터베이스에서 유사한 인스턴스를 가져와 결측값을 추정하는 것이다.

단계 120에서는, 문자 검사 영역을 지정하고 문자 인식 여부를 판단하여 문자 인식 결과값을 생성한다. 이에 대해서는 도 3을 참고한다.

도 3은 본 발명의 일 실시예에 따른, 텍스트 검사 가능 영역에 대하여 텍스트 인식 여부를 판단하는 과정을 나타내는 도면이다.

번호판 이미지(300) 내에서 문자 검사 영역은 예를 들면, 좌측 상단 점 (x, y) 좌표와 검사 영역의 가로, 세로 크기 즉, 넓이 및 높이 (w, h)로 이루어진다. 번호판 이미지 내에서 가능한 모든 검사 영역에 대해서 문자 인식을 수행하여 문자 영역을 추출해야 하므로, x 및 y 는 번호판 이미지 내의 모든 점이 될 수 있고, w 및 h 의 범위는 문자의 최소 사이즈에서부터 최대 사이즈까지가 될 수 있다.

이렇게 설정된 문자 검사 영역에 대하여 문자 인식 여부를 판단한다. 도 3과 같이 설정된 문자 검사 영역(310, 320)의 윈도우가 번호판 이미지(300)의 모든 검사 영역에 대하여 스캔 작업을 수행할 수 있다.

도 1의 단계 130에서는, 문자 영역 예측값 및 문자 인식 결과값을 조합하여 번호판 이미지 내에서 텍스트 영역을 선택하게 된다.

도 4는 본 발명의 일 실시예에 따른, 텍스트 영역의 추출 방법을 보다 상세히 설명하는 플로우 차트이다. 이를 위해, 도 5의 텍스트 영역의 추출 장치를 나타내는 기능 블록도를 참조하여 설명하도록 한다.

텍스트 영역의 추출 장치(500)의 일 실시예는, 이미지의 텍스트 영역에 대한 기하학적 정보를 가지는 텍스트 영역 데이터베이스(560)와 데이터베이스(560)에 저장된 복수개의 텍스트 영역 데이터에 기초하여 새롭게 입력된 이미지(570) 내에서 텍스트 영역의 결측값을 예측하여 결측값 추정치를 생성하는 결측값 예측부(510)와, 예측된 결측값 추정치를 바탕으로 결측값 추정치에 대한 추정 확률을 기록한 스코어 맵을 생성하는 제 1 스코어 맵 연산부(530)와, 입력된 제 2 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하는 텍스트 인식부(520)와, 인식된 텍스트의 존재 여부의 추정 확률을 기록한 스코어 맵을 생성하는 제 2 스코어 맵 연산부(540)와, 이렇게 생성된 제 1 스코어 맵 및 제 2 스코어 맵을 조합하여 상기 제 2 이미지 내에서 텍스트 영역을 선택하여 텍스트 영역 데이터(580)를 출력하는 텍스트 영역 선택부(550)를 포함한다.

도 4를 참조하여 문자 영역의 추출 방법을 살펴보면, 단계 410에서는 도 1의 단계 110와 마찬가지로 문자 영역 데이터가 저장된 데이터베이스를 활용하고 번호판의 문자 영역이 이루는 기하학적 정보의 유사성을 이용하여 새롭게 입력된 번호판 이미지에서 문자 영역들의 위치, 크기 정보를 추측한다. 즉, 데이터베이스와 현재 입력된 번호판 이미지에서의 문자 추출 정보를 바탕으로 결측값 예측을 시행한다.

단계 420에서는 예측된 모든 결측값 추정치를 바탕으로 결측값 추정치에 대한 추정 확률을 기록한 제 1 스코어 맵을 생성한다.

예를 들어, 이미지에 표시된 4개의 문자 중에서 세 번째 문자의 위치 및 크기가 결측값인 경우, (x3, y3, w3, h3) 값이 결측값이 되고 그에 대한 추정치를 바탕으로 스코어 맵(score map)을 생성한다. 이때, 4차원 벡터의 모든 값에 대하여 스코어 값을 계산한다. 결측값을 추정하는 방법에 따라 달라 지겠지만, 보통의 경우 모든 결측값에 대한 추정 확률이 존재하고 가장 확률이 큰 하나의 값을 결측값 추정치로 이용할 수 있다.

도 4의 일 실시예서는 단일 추정치를 이용하지 않고 모든 결측값에 대한 추정 확률을 그대로 기록하여 제 1 스코어 맵을 생성하고 이후에 단계 440에서 생성된 제 2 스코어 맵과 합산될 수 있다.

단계 430에서는, 문자 검사 영역을 지정하고 문자 인식 여부를 판단하여 문자 인식 결과값을 생성한다. 앞서 설명한 바와 같이, 번호판 이미지(300) 내에서 문자 검사 영역은 예를 들면 좌측 상단 점 (x, y) 좌표와 검사 영역의 넓이 및 높이 (w, h)로 이루어질 수 있고, 번호판 이미지 내에서 가능한 모든 검사 영역에 대해서 문자 인식을 수행하여 문자 영역을 추출해야 하므로, x 및 y 는 번호판 이미지 내의 모든 점이 되고, w 및 h 의 범위는 문자의 최소 사이즈에서부터 최대 사이즈까지가 될 수 있다.

단계 440에서는 모든 검사 영역에 대하여 문자 인식을 수행하여 각각에 대하여 해당 영역이 문자일 확률을 계산한다. 문자인지 아닌지를 인식하는 방법으로는 인공신경망(Artificial Neural Networks) 또는 자기 조직화 사상(Self-Organizing Map) 등의 방법을 사용할 수 있다. 이러한 문자의 존재 여부의 추정 확률을 기록한 스코어 맵을 생성한다.

단계 450에서는 문자 영역 예측값 및 문자 인식 결과값을 조합하여 번호판 이미지 내에서 텍스트 영역을 선택한다. 구체적으로 앞서 단계 420 및 단계 440에서 생성된 스코어 맵을 결합하여 단일 스코어 맵을 생성한다. 2 개의 스코어 맵은 (x, y, w, h) 에 대하여 스코어 값을 가지는 동일한 규격이므로 단순 합 또는 가중치 합(weighted sum)을 통해 결합할 수 있다.

아울러, 계산된 단일 스코어 맵을 바탕으로 가장 높은 스코어 값을 가지는 문자 영역 정보 (x, y, w, h) 를 문자 영역 데이터로 선택한다.

다만, 만약 단일 스코어 맵에서 가장 높은 스코어를 가지는 문자 영역이, 이미 다른 문자 영역으로 선택된 영역과 소정의 범위 이상을 서로 겹치는 경우에는 문자 영역의 선택 가능한 후보에서 상기 문자 영역을 제외시킬 수 있다.

한편, 도 4에서는 도시하지 않았지만, 문자 영역의 추출 방법이 반복적으로 수행되어 번호판 이미지 내에서 문자 영역 추출 작업이 완료되는지를 판단하는 단계를 더 포함할 수 있다. 즉, 현재까지 선택된 문자 영역 정보를 바탕으로 문자 영역 추출 작업의 종료 여부를 검증한다.

각 나라별로 해당되는 문자 영역의 수 등의 사전 정보를 바탕으로 이를 서로 비교하여 종료 여부를 판단한다. 예를 들어, 유럽의 번호판의 경우 7개의 문자 및 숫자의 조합된 영역을 가지므로 선택된 문자 영역이 7개일 경우에 문자 영역 추출 작업을 종료하게 된다.

도 5의 텍스트 영역의 추출 장치를 이용한 번호판 자동 인식 시스템을 설명하면, 번호판 자동 인식 시스템은 먼저 카메라를 이용하여 촬영한 외부 영상으로부터 번호판 이미지를 검출하는 번호판 검출기를 포함한다. 번호판 검출기는 외부 자연영상에서 번호판 영역을 추출하여 텍스트 영역 추출기로 번호판 이미지를 전달한다. 전달되는 번호판 이미지는 카메라의 촬영 방향에 따라 생기는 번호판의 삐뚤어짐이 보정된 것임을 가정한다.

아울러, 번호판 자동 인식 시스템은 기 저장된 번호판 이미지 내의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스에 기초하여 상기 검출된 번호판 이미지 내에서 텍스트 영역 예측값을 생성하고, 상기 번호판 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하고, 상기 생성된 텍스트 영역 예측값 및 텍스트 인식 결과값을 조합하여 상기 번호판 이미지 내에서 텍스트 영역을 선택하는 텍스트 영역 추출기를 포함하며, 추출된 텍스트 영역 내에 표시된 텍스트를 식별하는 텍스트 식별기를 포함한다.

한편, 데이터베이스에서 기 보유한 번호판 이미지의 텍스트 영역에 대한 위치 및 크기 정보와 텍스트 인식 결과값은, 번호판 이미지 내에서 텍스트 영역을 선택하기 위하여 반복적으로 이용되는 학습 정보이다. 따라서, 나라별로 다른 번호판을 인식하고자 할 경우에는 학습 정보를 교체하면 바로 적용 가능하다는 장점이 있다.

본 발명은 텍스트 영역의 추출 방법을 실행시키기 위한 프로그램이 기록된 기록 매체를 포함한다.

컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체 등이 포함될 수 있다.

또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

텍스트 영역의 추출 방법에 있어서,
제 1 이미지의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스에 저장된 복수개의 텍스트 영역 데이터에 기초하여, 입력된 제 2 이미지 내에서 텍스트 영역 예측값을 생성하는 단계;
상기 입력된 제 2 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하는 단계; 및
상기 생성된 텍스트 영역 예측값 및 텍스트 인식 결과값을 조합하여 상기 제 2 이미지 내에서 텍스트 영역을 선택하는 단계를 포함하고,
상기 텍스트 영역 예측값을 생성하는 단계는,
상기 데이터베이스 및 상기 제 2 이미지에서의 텍스트 추출 정보를 바탕으로, 상기 텍스트 영역의 결측값(missing value)을 예측하여 결측값 추정치를 생성하는 단계;
상기 생성된 모든 결측값 추정치를 바탕으로 상기 결측값 추정치에 대한 추정 확률을 기록한 제 1 스코어 맵을 생성하는 단계; 및
상기 결측값 추정치의 4차원 벡터의 모든 값에 대해 스코어값을 계산하는 단계;를 더 포함하는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 1 항에 있어서,
상기 기하학적 정보는 상기 텍스트 영역의 위치 및 크기 정보이며,
상기 텍스트 영역 예측값을 생성하는 단계는 상기 텍스트 영역의 위치 및 크기 정보를 가지는 데이터베이스에 저장된 N (N은 1이상의 양의 정수)개의 텍스트 영역 데이터와의 유사성에 기초하여 상기 예측값을 생성하는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 2 항에 있어서,
상기 텍스트는 문자, 숫자, 기호 및 부호 중 적어도 하나 이상을 포함하는 유의미한 시각 정보인 것을 특징으로 하는 텍스트 영역 추출 방법.
제 3 항에 있어서,
상기 데이터베이스에서 기 보유한 상기 제 1 이미지의 텍스트 영역에 대한 위치 및 크기 정보와 상기 생성된 텍스트 인식 결과값은,
상기 제 2 이미지 내에서 텍스트 영역을 선택하기 위하여 반복적으로 이용되는 학습 정보인 것을 특징으로 하는 텍스트 영역 추출 방법.
제 2 항에 있어서,
상기 데이터베이스는,
상기 제 1 이미지의 텍스트 영역에 대한 위치 및 크기 정보를 벡터 포맷으로 변환한 수치 정보의 형태로 가지고 있는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 5 항에 있어서,
상기 벡터 포맷은,
상기 텍스트 영역에 대한 절대값 또는 다른 텍스트 영역과의 위치적 상대값을 포함하는 포맷인 것을 특징으로 하는 텍스트 영역 추출 방법.
삭제
제 1 항에 있어서,
상기 텍스트 인식 결과값을 생성하는 단계는,
상기 제 2 이미지 내의 모든 영역에 대하여 텍스트 존재 여부를 인식하며,
상기 텍스트 영역에 대한 절대값 또는 상대값은 상기 제 2 이미지 내에서 수평 및 수직의 모든 위치값을 포함하며, 텍스트 영역이 가질 수 있는 넓이 및 높이의 최소 내지 최대 크기를 포함하는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 8 항에 있어서,
상기 텍스트 인식 결과값을 생성하는 단계는,
상기 인식된 텍스트의 존재 여부의 추정 확률을 기록한 제 2 스코어 맵을 생성하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 9 항에 있어서,
상기 텍스트 영역을 선택하는 단계는,
상기 생성된 동일한 규격의 제 1 스코어 맵 및 제 2 스코어 맵을 합하여 단일한 제 3 스코어 맵을 생성하는 단계를 더 포함하며,
상기 생성된 제 3 스코어 맵에서 가장 높은 스코어를 가지는 텍스트 영역을 선택하는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 10 항에 있어서,
상기 텍스트 영역을 선택하는 단계는,
만약 상기 생성된 제 3 스코어 맵에서 가장 높은 스코어를 가지는 텍스트 영역이, 이미 다른 텍스트의 영역으로 선택된 영역과 소정의 범위 이상 겹치는 경우에, 상기 텍스트 영역의 선택 가능한 후보에서 제외시키는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 1 항에 있어서,
상기 텍스트 영역 선택 단계 이후에,
상기 텍스트 영역의 추출 방법이 반복적으로 수행되어 상기 제 2 이미지 내에서 텍스트 영역 추출 작업이 완료되는지를 판단하는 단계를 더 포함하는 것을 특징으로 하는 텍스트 영역 추출 방법.
제 12 항에 있어서,
상기 제 2 이미지는 표지판의 이미지이며,
상기 텍스트 영역 추출 작업이 완료되는지를 판단하는 단계는 각 국가에서의 표지판 표시 규칙에 따라 상기 추출되는 텍스트 영역의 개수를 비교하는 것을 특징으로 하는 텍스트 영역 추출 방법.
텍스트 영역의 추출 장치에 있어서,
제 1 이미지의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스;
상기 데이터베이스에 저장된 복수개의 텍스트 영역 데이터에 기초하여, 입력된 제 2 이미지 내에서 텍스트 영역의 결측값을 예측하여 결측값 추정치를 생성하는 결측값 예측부;
상기 생성된 결측값 추정치를 바탕으로 상기 결측값 추정치에 대한 추정 확률을 기록한 스코어 맵을 생성하는 제 1 스코어 맵 연산부;
상기 입력된 제 2 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하는 텍스트 인식부;
상기 인식된 텍스트의 존재 여부의 추정 확률을 기록한 스코어 맵을 생성하는 제 2 스코어 맵 연산부; 및
상기 생성된 제 1 스코어 맵 및 제 2 스코어 맵을 조합하여 상기 제 2 이미지 내에서 텍스트 영역을 선택하는 텍스트 영역 선택부를 포함하고,
상기 제 1 스코어 맵 연산부는, 상기 결측값 추정치의 4차원 벡터의 모든 값에 대해 스코어값을 계산하는 것을 특징으로 하는 텍스트 영역 추출 장치.
번호판 자동 인식 시스템에 있어서,
카메라를 이용하여 촬영한 외부 영상으로부터 번호판 이미지를 검출하는 번호판 검출기;
기 저장된 번호판 이미지 내의 텍스트 영역에 대한 기하학적 정보를 가지는 데이터베이스에 기초하여 상기 검출된 번호판 이미지 내에서 텍스트 영역 예측값을 생성하고, 상기 번호판 이미지 내의 텍스트 가능 영역에 대하여 텍스트 인식 여부를 판단하여 텍스트 인식 결과값을 생성하고, 상기 생성된 텍스트 영역 예측값 및 텍스트 인식 결과값을 조합하여 상기 번호판 이미지 내에서 텍스트 영역을 선택하는 텍스트 영역 추출기; 및
상기 추출된 텍스트 영역 내에 표시된 텍스트를 식별하는 텍스트 식별기를 포함하고,
상기 텍스트 영역 추출기는,
상기 데이터베이스 및 상기 검출된 번호판 이미지에서의 텍스트 추출 정보를 바탕으로, 상기 텍스트 영역의 결측값(missing value)을 예측하여 결측값 추정치를 생성하고, 상기 생성된 모든 결측값 추정치를 바탕으로 상기 결측값 추정치에 대한 추정 확률을 기록한 제 1 스코어 맵을 생성하며, 상기 결측값 추정치의 4차원 벡터의 모든 값에 대해 스코어값을 계산하는 것을 특징으로 하는 번호판 자동 인식 시스템.