KR20110042665A - 문자 검출 방법 및 장치 - Google Patents

문자 검출 방법 및 장치 Download PDF

Info

Publication number
KR20110042665A
KR20110042665A KR1020090099443A KR20090099443A KR20110042665A KR 20110042665 A KR20110042665 A KR 20110042665A KR 1020090099443 A KR1020090099443 A KR 1020090099443A KR 20090099443 A KR20090099443 A KR 20090099443A KR 20110042665 A KR20110042665 A KR 20110042665A
Authority
KR
South Korea
Prior art keywords
character
candidate
area
image
region
Prior art date
Application number
KR1020090099443A
Other languages
English (en)
Other versions
KR101048399B1 (ko
Inventor
이귀상
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020090099443A priority Critical patent/KR101048399B1/ko
Publication of KR20110042665A publication Critical patent/KR20110042665A/ko
Application granted granted Critical
Publication of KR101048399B1 publication Critical patent/KR101048399B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

상기한 목적을 달성하기 위하여 본 발명에 따른 문자 검출 방법은 영상 내에서 문자가 포함된 영역을 검출하는 방법에 있어서, 입력된 영상을 그레이 영상으로 변환하는 단계와, 상기 그레이 영상에서 제1 문자후보영역을 확인하는 과정과, 상기 그레이 영상에 텐서보팅을 적용하여 제2 문자후보영역을 확인하는 과정과, 확인된 상기 제1 및 제2 문자후보영역이 일치하는 영역을 확인하고, 문자가 포함된 영역을 검출하여 문자를 추출하는 과정을 포함한다.
영상, 문자, 영역, 인식, 텐서, 보팅, 경계, 검출, 객체

Description

문자 검출 방법 및 장치{METHOD FOR TEXT DETECTION AND APPARATUS FOR THE SAME}
본 발명은 이미지 처리 방법 및 장치에 관한 것으로서, 특히 이미지 내에 포함된 문자를 검출하는 방법 및 장치에 관한 것이다.
최근 디지털 카메라나 휴대폰 카메라를 통해 막대한 양의 영상 자료들이 생성되고 있다. 자연 영상에서 문자를 이해하는 것은 시각 장애인용 보조장치 또는 외국인을 위한 통역 시스템간은 매우 중요한 용도로서 활용될 수 있다. 영상에 포함된 문자영역의 검출은 문자 인식을 위한 첫번째 단계이다. 자연 영상은 다양한 조건에서 촬영될 수 있기 때문에, 원하는 문자 영역만을 검출하는 연구가 다양하게 이루어지고 있다. 자연 영상에서 배경은 매우 복잡하게 형성될 수 있으며, 그 내부에 존재하는 문자 영역 역시 다양한 형태의 포맷(예컨대, 폰트), 크기, 방향을 갖고 있다. 영상에는 일정하지 않은 조명, 반사, 그림자, 및 하이라이트 표시 들의 다양한 요소가 포함되어 있다.
한편, 문자 검출 방법은 크게 텍스쳐 기반 방법과 영역기반 방법의 두 가지로 나눌 수 있다. 텍스쳐 기반 방법은 미분 들의 연산이나 주파수 기반 접근에 의 해 높은 계산량을 요구할 수 있으며, 작은 문자들을 검출하는데 비교적 좋은 성능을 보이고 있다. 그러나 문자의 폰트 형태에 따라 주파수 특성이 다르게 나타날 수 있으며, 이러한 변화에 적응하기 어려운 문제가 있다. 영역기반 방법은 에지 정보나 문자 획의 연결요소 특징 등의 공간적 응집성을 이용한다. 에지 기반 방법에서는 문자 외곽선으로부터 에지를 검출하고, 이를 병합한 후, 몇 가지 휴리스틱 요소를 사용하여 비문자 영역을 필터링한다. 이러한, 영역기반 방법은 영상에 포함된 문자가 비슷한 특징으로 갖는 부분이 많을 경우 문자를 잘못 인식하는 비율이 높은 문제가 있다.
본 발명은 전술한 점을 고려하여 안출된 것으로서, 문자 검출의 정밀도를 높이고, 문자의 크기와 방향이 일정하지 않은 조건에서 문자의 검출률을 높일 수 있는 문자 검출방법 및 장치를 제안하는데 그 목적이 있다.
상기한 목적을 달성하기 위하여 본 발명의 일 측면에 따른 문자 검출 방법은 영상 내에서 문자가 포함된 영역을 검출하는 방법에 있어서, 입력된 영상을 그레이 영상으로 변환하는 단계와, 상기 그레이 영상에서 제1 문자후보영역을 확인하는 과정과, 상기 그레이 영상에 텐서보팅을 적용하여 제2 문자후보영역을 확인하는 과정과, 확인된 상기 제1 및 제2 문자후보영역이 일치하는 영역을 확인하고, 문자가 포함된 영역을 검출하여 문자를 추출하는 과정을 포함한다.
본 발명의 다른 측면에 따른 문자 검출 장치는 영상 내에서 문자가 포함된 영역을 검출하는 장치에 있어서, 입력된 영상을 그레이 영상으로 변환하는 이미지 변환부와, 상기 이미지 변환부로부터의 출력되는 그레이 영상에 경계(에지; Edge) 영역 검출 알고리즘을 적용하여 제1 문자후보영역을 확인하는 제1 문자후보영역 확인부와, 상기 이미지 변환부로부터의 출력되는 그레이 영상에 텐서보팅을 적용하여 제2 문자후보영역을 확인하는 제2 문자후보영역 확인부와, 상기 제1 및 제2 문자후보영역을 확인하여, 문자가 포함된 영역을 검출하고, 상기 문자가 포함된 영역에 포함된 문자를 검출하는 문자 검출부를 포함한다.
본 발명의 문자 검출 방법 및 장치에 따르면, 문자 검출의 오인식률을 줄이고, 문자의 크기와 방향이 일정하지 않은 조건에서 강건한 문자의 검출을 보장할 수 있다.
또한, 문자 검출에 텐서보팅을 적용하여 문자의 위치 탐색, 노이즈 제거, 검출률을 높이는데 필요한 정보를 생성하고, 이를 이용함으로써 문자 검출의 정밀도를 높일 수 있고 문자의 검출률을 증대시킬 수 있다.
이하 본 발명에 따른 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 구성 소자 등과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.
그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 문자영역 검출 장치의 대략적인 구성을 도시하는 블록도이다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 문자영역 검출 장치는 입력된 영상을 RGB 평균값을 이용하여 RGB로 표현된 칼라영상을 그레이 레벨로 변환하는 이미지 변환부(110), 상기 그레이 영상 내의 객체들로부터 제1 문 자후보영역을 확인하는 제1 문자후보영역 확인부(120), 상기 그레이 영상 내의 객체들로부터 제2 문자후보영역을 확인하는 제2 문자후보영역 확인부(130)를 구비한다. 또한, 문자영역 검출 장치는 제1 및 제2 문자후보영역 확인부(120,130)로부터 각각 출력된 제1 및 제2 문자후보영역을 확인하여 최종적으로 문자영역을 검출하는 문자 검출부(140)를 구비한다.
상기 제1 문자후보영역 확인부(120)는 이미지 변환부(110)로부터 그레이 영상을 입력받고, 상기 그레이 영상을 경계영역(에지; Edge) 검출 알고리즘에 적용한다. 일반적으로 영상에 포함된 문자는 형상의 특성상 미리 정해진 크기의 범위의 내에 존재한다. 이에 따라, 제1 문자후보영역 확인부(120)는 일반적인 문자의 특성을 고려하여, 경계영역 검출 알고리즘을 통해 검출된 경계영역들 중 문자영역으로 예상되는 영역을 제1 문자후보영역으로 설정한다. 예컨대, 제1 문자후보영역 확인부(120)는 상기 그레이 영상에 대하여 경계영역 검출 알고리즘을 처리하는 경계영역 검출부(121)와, 상기 경계영역들에 대한 제1 문자후보영역의 설정을 처리하는 제1 문자후보영역 검출부(123)를 구비할 수 있다.
나아가, 경계영역 검출부(121)는 상기 그레이 영상에 캐니 에지 알고리즘(Canny Edge Algorithm)을 적용하여 경계영역을 추출할 수 있다.
한편, 이미지 변환부(110)로부터 출력되는 그레이 영상(15)은 제2문자후보영역 확인부(130)에도 제공된다. 이에 따라, 제2문자후보영역 확인부(130)는 상기 그레이 영상(15)에 텐서보팅을 적용하여 제2 문자후보영역을 확인하게 된다. 예컨대, 상기 제2문자후보영역 확인부(13)는 그레이 영상으로부터 텐서보팅의 입력 토큰으 로서 사용될 후보객체를 검출하는 후보객체 검출부(131)와, 후보객체 검출부(131)의 출력값에 대하여 텐서보팅 프레임웍을 처리하는 텐서보팅 처리부(133)와, 영상에 포함된 문자의 특성과 텐서보팅 처리된 결과값을 고려하여, 제2문자후보영역을 검출하는 제2문자후보영역 검출부(135)를 포함할 수 있다.
문자영역의 중심점으로 추정되는 점이 텐서보팅의 입력 토큰으로서 사용되는 것이 바람직하다. 또한, 영상에 포함되는 문자들은 일반적으로 수평 성분을 갖는 직선 상에 배열되어 있거나, 수평 방향의 완만한 곡선 형태로 배열될 수 있다. 따라서, 상기 후보객체 검출부(131)는 이와 같은 문자들의 배열 특성을 고려하여, 상기 그레이 영상에 포함된 문자들이 수직 성분으로 구분될 수 있도록, 수직 성분 검출 소벨(Sobel) 연산을 수행하여 경계영역을 검출하고, 상기 경계영역의 객체를 후보객체로 설정하는 것이 바람직하다. 즉, f(x,y)를 (x,y)로 표현되는 위치의 픽셀의 명도로 정의할 때, 수평 또는 수직 성분은 하기의 수학식 1로 정의할 수 있다. 이에 대응하여 상기 후보객체 검출부(131)는 하기의 수학식 2와 같은 소벨(Sobel) 에지 필터 및 수학식 3의 연산을 사용하여 수직 성분을 검출하고, 후보객체를 검출할 수 있다.
Figure 112009063971896-PAT00001
Figure 112009063971896-PAT00002
Figure 112009063971896-PAT00003
상기 후보객체 검출부(131)는 일반적으로 영상에 포함된 문자의 형상 및/또는 크기의 특성을 고려하여, 검출된 후보객체 중, 미리 정해진 크기 범위를 벗어나는 후보객체는 제거할 수 있다.
또한, 상기 후보객체 검출부(131)는 후보객체의 텐서보팅 적용을 용이하게 하기 위하여, 상기와 같이 검출된 상기 후보객체의 중심점을 검출하고, 각 중심점에 대한 리스트를 생성하는 것이 바람직하다.
비록, 본 발명의 일 실시예에서, 영상에 포함되는 문자들은 일반적으로 수평 성분을 갖는 직선 상에 배열되어 있거나, 수평 방향의 완만한 곡선 형태로 배열될 수 있음 예시하였으나, 본 발명이 이를 한정하는 것은 아니다. 예컨대, 영상에 포함되는 문자들은 수직 성분을 갖는 직선 상에 배열되어 있거나, 수직 방향의 완만한 곡선 형태로 배열될 수도 있으며, 이 경우, 상기 후보객체 검출부(131)는 상기 그레이 영상(15)에 포함된 문자들이 수평 성분으로 구분될 수 있도록, 수평 성분 검출 소벨(Sobel) 연산을 수행하는 것도 가능하다.
텐서보팅 처리부(133)는 상기 후보객체의 중심점들을 텐서보팅의 입력 토큰으로서 적용하고, 상기 입력 토큰에 대한 텐서보팅 프레임웍을 처리한다. 텐서보팅 프레임웍은 USC(University of Southern California)의 컴퓨터 비젼 그룹에 의해 개발된 통합 프레임웍으로써, 그 구체적인 설명은 생략한다.
텐서보팅 처리부(133)는 상기 입력 토큰에 대한 텐서보팅 프레임웍을 처리하여, 입력된 후보객체의 중심점들에 대한 돌출도(saliency)를 출력한다.
나아가, 텐서보팅이 적용된 후보객체들의 중심점들 중, 문자 영역에 해당하는 후보객체들의 중심점들에 대응하는 텐서들의 커브 돌출도는 다른 토큰들에 비하여 상대적으로 높은 값을 지닌다. 따라서, 이러한 문자 영역에 해당하는 후보객체들의 커브 돌출도를 고려하여, 제2 문자후보영역 검출부(135)는 상기 후보객체들로부터 제2 문자후보영역을 검출한다. 즉, 제2 문자후보영역 검출부(135)는 후보객체들에 대응하는 텐서들의 커브 돌출도가 미리 정해진 임계값보다 상대적으로 큰 값을 지닐 경우, 상기 후보객체를 제2 문자후보영역으로 설정하고, 후보객체들에 대응하는 텐서들의 커브 돌출도가 미리 정해진 임계값과 같거나 상대적으로 작은 값을 지닐 경우, 상기 후보객체를 제거함으로써, 제2 문자후보영역을 검출한다.
나아가, 상기 문자 검출부(140)는 상기 제1 문자후보영역과 제2 문자후보영역이 일치하는 영역을 문자영역으로 결정하고, 상기 문자영역을 문자 인식 알고리즘에 적용하여 최종적으로 문자를 검출한다.
바람직하게, 상기 문자 검출부(140)는 제2 문자후보영역에 포함된 비 문자영역을 제거하기 위하여, 상기 후보객체의 중심점들을 이용하여 수평방향으로 배열된 후보객체의 중심점들에 대한 팽창연산을 수행함으로써, 이웃한 후보객체들을 연결할 수 있다. 이에 따라, 상기 문자 검출부(140)는 후보객체들이 서로 연결되는 후보객체만을 제2 문자후보영역으로 인정하고, 이외의 제2 문자후보영역은 제거할 수 있다.
한편, 도 2a 내지 도 2d, 도 3a 내지 도 3d, 도 4a 내지 도 4b, 및 도 5a 내지 도 5c는 본 발명의 일 실시예에 따른 문자영역 검출 장치에 의해 생성되는 영상을 예시하는 도면이다. 이하, 문자영역 검출 장치에 의해 생성되는 영상의 예시도를 참조하여 문자영역 검출 장치의 동작을 설명한다.
우선, 도 2a는 원본 영상(11)을 예시하고, 도 2b는 그레이 영상(15)을 예시하고, 도 2c는 경계영역을 포함하는 경계영역 영상(21)을 예시하고, 도 2d는 제1 문자후보영역을 포함하는 제1 문자후보 영상(25)을 예시한다.
이미지 변환부(110)는 원본 영상(11)을 입력받고 상기 원본 영상(11)에 대한 그레이 변환을 수행하여 그레이 영상(15)을 출력한다. 상기 그레이 영상(15)은 경계영역 검출부(121)에 제공되며, 경계영역 검출부(121)는 상기 그레이 영상(15)에 캐니 에지 검출 알고리즘(Canny Edge Detection Algorithm) 등의 경계영역 검출 알고리즘을 적용하여 경계영역을 추출하고, 경계영역 영상(21)을 출력한다.
한편, 도 3a는 이미지 변환부(110)로부터 출력되는 그레이 영상(15)을 예시하고, 도 3b는 후보객체 검출부(131)를 통해 검출된 후보객체의 경계영역 영상(31)을 예시하고, 도 3c는 영상에 포함된 문자의 특성을 고려하여 상기 후보객체 경계영역 영상(31)으로부터 문자영역이 아닌 것으로 예상되는 객체를 필터링한 후보객 체 영상(33)을 예시하고, 도 3d는 후보객체의 중심점을 추출한 영상(즉, 후보객체 중심점 영상)(35)을 예시한다. 또한, 도 4a는 후보객체 중심점 영상(35)을 텐서보팅 처리한 텐서보팅 영상(41)을 예시하고, 도 4b는 텐서보팅 영상(41)으로부터 제2 문자후보영역을 검출한 제2 문자후보영역 영상(45)을 예시한다.
후보객체 검출부(131)는 도 3a에 도시된 그레이 영상(15)을 입력받고, 수직 성분 검출 소벨(Sobel) 연산을 수행하여 경계영역 영상(31)을 생성한 후, 경계영역의 크기가 미리 정해진 범위를 벗어나는 영역을 제거하여, 문자영역이 아닌 것으로 예상되는 객체를 필터링한 후보객체 영상(33)을 형성한다. 그리고, 후보객체 검출부(131)는 후보객체 영상(33)에 포함된 각 후보객체에 대한 중심점을 확인하여 후보객체 중심점 영상(35)을 생성하고, 각 후보객체의 중심점들에 대한 라벨링(Labeling)을 수행하여, 각 후보객체들의 중심점 리스트를 생성한다. 다음으로, 상기 중심점 리스트는 텐서보팅 처리부(133)에 제공되며, 텐서보팅 처리부(133)는 상기 중심점 리스트에 포함된 중심점들을 입력 토큰으로 적용하여 텐서보팅 처리를 수행한다. 텐서보팅 처리부(133)는 텐서보팅 처리에 대한 결과물로서 상기 중심점들에 대응하는 텐서들의 곡선 돌출도(saliency)와, 각 중심점들이 갖는 곡면 법선 벡터들에 의한 문자 영역의 법선벡터를 생성한다. 이와 같은 상기 곡선 돌출도(saliency)와 문자 영역의 법선벡터는 후보객체 영상(33)에 반영되어, 도 4a에 도시된 텐서보팅 영상(41)을 출력한다. 텐서보팅 영상(41)에서, 각 후보객체의 중심점은 적색점으로 표시되며, 곡선 돌출도(saliency)는 녹색선의 길이로 표현되고, 문자 영역의 법선벡터는 녹색선의 화살표를 통해 표시된다. 텐서보팅 영상(41)에 표시된 바와 같이, 문자가 위치한 영역 내에서는 곡선 돌출도(saliency)가 큰 값으로 표현되고, 그들의 법선 벡터가 문자 영역의 법선벡터와 유사하게 나타난다. 따라서, 이와 같은 문자가 위치한 영역의 곡선 돌출도(saliency)와 법선벡터의 특성을 고려하여, 제2 문자후보영역 검출부(135)는 미리 정해진 임계값보다 상대적으로 적은 값의 곡선 돌출도를 갖는 후보객체를 제거하고, 법선벡터가 수평방향으로 형성된 후보객체를 제거함으로써, 제2 문자후보영역 영상(45)을 생성한다.
도 5a는 팽창연산을 통해 연결된 제2 문자후보영역의 후보객체들을 포함하는 팽창 영상(51)을 예시하며, 도 5b는 제1 및 제2 문자후보영역이 중복되는 영역만을 추출한 문자영역 추출 영상(53)을 예시하며, 도 5c는 상기 문자영역 추출 영상(53)으로부터 검출한 문자를 포함하는 문자 영상(55)을 예시한다.
문자 검출부(140)는 제2 문자후보영역 영상(45)에서 비 문자영역을 제거하기 위하여, 상기 후보객체의 중심점들을 이용하여 수평방향으로 배열된 후보객체의 중심점들에 대한 팽창연산을 수행하여 후보객체들을 연결한다. 이에 따라, 문자 검출부(140)는 제2 문자후보영역의 후보객체들을 포함하는 팽창 영상(51)을 생성한다. 그리고 상기 문자 검출부(140)는 후보객체들이 서로 연결되는 후보객체만을 제2 문자후보영역으로 인정하고, 이외의 제2 문자후보영역은 제거한다. 또한, 상기 문자 검출부(140)는 상기 제1 문자후보영역과 제2 문자후보영역이 일치하는 영역을 확인하여, 제1 및 제2 문자후보영역이 중복되는 영역만을 추출한 문자영역 추출 영상(53)을 생성한 후, 상기 문자영역 추출 영상(53)에 포함된 문자 영역문자 인식 알고리즘에 적용하여 최종적으로 문자를 검출하고, 문자 영상(55)을 생성한다.
도 6은 본 발명의 일 실시예에 따른 문자영역 검출 방법의 순서를 도시하는 흐름도이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 문자영역 검출 방법은 원본 영상(예컨대, 도 2a의 11)을 입력받고(210단계), 입력된 원본 영상(11)을 그레이 영상(예컨대, 도 2b의 15)으로 변환한다(220단계).
다음으로, 230단계에서는 상기 그레이 영상(도 2b의 15)에 경계영역 알고리즘을 적용하여 제1 문자후보영역을 확인하고, 제1 문자후보 영상(도 2d의 25)을 생성한다.
그리고, 240단계에서는 상기 그레이 영상(도 2b의 15)에 텐서보팅을 적용하여 제2 문자후보영역을 확인하고, 제2 문자후보 영상(도 4b의 45)을 생성한다. 나아가, 상기 그레이 영상(도 2b의 15)에 텐서보팅을 적용하기 위해서는 텐서보팅에 입력할 입력 토큰의 검출이 요구된다. 이에 따라, 240단계에서는 입력 토큰으로서 사용할 후보객체를 검출하고, 상기 후보객체들의 각 중심점을 검출한 후, 상기 중심점들을 입력 토큰으로 사용한다.
마지막으로, 250단계에서는 상기 제1 문자후보영역과 제2 문자후보영역이 일치하는 영역을 문자영역으로 결정하고, 상기 문자영역을 문자 인식 알고리즘에 적용하여 최종적으로 문자를 검출한다. 나아가, 250단계에서는 제2 문자후보영역에 포함된 비 문자영역을 제거하기 위하여, 상기 후보객체의 중심점들을 이용하여 수평방향으로 배열된 후보객체의 중심점들에 대한 팽창연산을 수행함으로써, 이웃한 후보객체들을 연결할 수 있다. 이에 따라, 후보객체들이 서로 연결되는 후보객체만 을 제2 문자후보영역으로 인정하고, 이외의 제2 문자후보영역은 제거할 수 있다.
구체적으로, 250단계에서는 제2 문자후보영역 영상(45)에 포함된 상기 후보객체의 중심점들을 이용하여 수평방향으로 배열된 후보객체의 중심점들에 대한 팽창연산을 수행한다. 이에 따라, 제2 문자후보영역 영상(45)에 포함된 후보객체들을 연결하고, 연결된 후보객체들을 포함하는 팽창 영상(도 5a의 51)을 생성한다. 그리고, 상기 제1 문자후보영역과 제2 문자후보영역이 일치하는 영역을 확인하여, 제1 및 제2 문자후보영역이 중복되는 영역만을 추출한 문자영역 추출 영상(도 5b의 53)을 생성한 후, 상기 문자영역 추출 영상(53)에 포함된 문자 영역문자 인식 알고리즘에 적용하여 최종적으로 문자를 검출하고, 문자 영상(도 5c의 55)을 생성한다.
도 7은 도 6의 230단계의 동작 순서를 구체적으로 도시하는 흐름도이다.
우선, 231단계에서는, 상기 그레이 영상(도 2b의 15)을 입력받고, 상기 그레이 영상(15)을 경계영역(에지; Edge) 검출 알고리즘에 적용한다. 이에 따라, 231단계에서는 상기 그레이 영상(15)에 포함된 사물들에 대한 경계영역을 확인하고, 상기 경계영역이 포함된 경계영역 영상(도 2c의 21)을 생성한다. 예컨대, 상기 경계영역(에지; Edge) 검출 알고리즘은 캐니 에지 알고리즘(Canny Edge Algorithm)일 수 있다.
233단계에서는, 경계영역 검출 알고리즘을 통해 검출된 경계영역들이 형성하는 각 영역을 제1 문자후보영역으로 설정한다.
한편, 일반적으로 영상에 포함된 문자는 형상의 특성상 미리 정해진 크기의 범위의 내에 존재한다. 이에 따라, 235단계에서는, 일반적인 문자의 특성을 고려하 여, 상기 제1 문자후보영역들로부터 문자가 아닌 것으로 예상되는 영역(즉, 비 문자 영역)을 제거하고, 최종적인 제1 문자후보영역으로 설정하고, 제1 문자후보 영상(도 2d의 25)을 생성한다.
도 8는 도 6의 240단계의 동작 순서를 구체적으로 도시하는 흐름도이다.
우선, 241단계에서는, 그레이 영상(15)으로부터 제2문자후보영역을 검출하기 위한 후보객체를 검출한다. 영상에 포함되는 문자들은 일반적으로 수평 성분을 갖는 직선 상에 배열되어 있거나, 수평 방향의 완만한 곡선 형태로 배열될 수 있다. 따라서, 이와 같은 문자들의 배열 특성을 고려하여, 상기 그레이 영상(15)에 포함된 문자들이 수직 성분으로 구분될 수 있도록, 수직 성분 검출 소벨(Sobel) 연산을 수행하여 경계영역을 검출하고, 상기 경계영역의 객체를 후보객체로 설정하는 것이 바람직하다. 즉, f(x,y)를 (x,y)로 표현되는 위치의 픽셀의 명도로 정의할 때, 수평 또는 수직 성분은 상기 수학식 1로 정의할 수 있다. 이에 대응하여 상기 수학식 2와 같은 소벨(Sobel) 에지 필터 및 수학식 3의 연산을 사용하여 수직 성분을 검출하고, 후보객체를 검출한다. 즉, 도 3a에 도시된 그레이 영상(15)에 대한 수직 성분 검출 소벨(Sobel) 연산을 수행하여 경계영역 영상(도 3b의 31)을 생성한 후, 경계영역의 크기가 미리 정해진 범위를 벗어나는 영역을 제거하여, 문자영역이 아닌 것으로 예상되는 객체를 필터링하여 후보객체를 검출하고, 검출된 상기 후보객체를 포함하는 후보객체 영상(도 3c의 33)을 형성한다.
나아가, 242단계에서는, 텐서보팅 적용을 용이하게 하기 위하여, 후보객체 영상(33)에 포함된 각 후보객체에 대한 중심점을 확인하고, 후보객체 중심점 영 상(35)을 생성한다. 그리고, 243단계에서는, 상기 후보객체의 중심점들에 대한 라벨링(Labeling)을 수행하여, 각 후보객체들의 중심점 리스트를 생성한다.
상기 후보객체에 대한 텐서보팅을 수행하기 위하여, 244단계에서는, 상기 라벨링된 후보객체를 미리 정해진 규칙에 따라 순차적으로 선택한다. 예컨대, 상기 미리 정해진 규칙은 상기 후보객체의 중심점에 할당된 번호의 순으로 상기 후보객체의 중심점을 선택하는 것일 수 있다.
245단계에서는 상기 244단계에서 선택된 후보객체의 중심점을 입력토큰으로 적용하여, 상기 선택된 후보객체의 중심점에 대한 텐서보팅을 처리하고, 그 결과값으로서 상기 중심점들에 대응하는 텐서들의 곡선 돌출도(saliency)와, 각 중심점들이 갖는 곡면 법선 벡터들에 의한 문자 영역의 법선벡터를 결정한다. 그리고, 245단계에서, 이와 같은 상기 곡선 돌출도(saliency)와 문자 영역의 법선벡터는 후보객체 영상(도 3a의 33)에 반영되어, 도 4a에 도시된 텐서보팅 영상(41)을 출력한다.
텐서보팅 영상(41)에서, 각 후보객체의 중심점은 적색점으로 표시되며, 곡선 돌출도(saliency)는 녹색선의 길이로 표현되고, 문자 영역의 법선벡터는 녹색선의 화살표를 통해 표시된다. 텐서보팅 영상(41)에 표시된 바와 같이, 문자가 위치한 영역 내에서는 곡선 돌출도(saliency)가 큰 값으로 표현되고, 그들의 법선 벡터가 문자 영역의 법선벡터와 유사하게 나타난다. 따라서, 이와 같은 문자가 위치한 영역의 곡선 돌출도(saliency)와 법선벡터의 특성을 고려하여, 246단계에서는, 상기 후보객체에 대한 돌출도가 미리 정해진 임계값보다 상대적으로 큰 값을 갖는지를 확인한다. 만약, 상기 후보객체에 대한 돌출도가 미리 정해진 임계값보다 상대적으로 큰 값을 갖을 경우, 상기 후보객체가 문자 영역일 가능성이 높으므로 247단계를 진행하여 상기 후보객체를 제2 문자후보영역으로 설정한다. 반면, 상기 후보객체에 대한 돌출도가 미리 정해진 임계값과 같거나 상대적으로 작은 값을 갖을 경우, 상기 후보객체가 문자 영역일 가능성이 낮으므로 248단계를 진행하여 상기 후보객체를 제2 문자후보영역으로부터 제거한다. 이로써, 텐서보팅 영상(41)으로부터 제2 문자후보영역 영상(도 5c 45)을 생성한다.
나아가, 249단계에서, 라벨링된 상기 후보객체에 대한 텐서보팅이 모두 처리되었는지를 확인하고, 라벨링된 상기 후보객체의 리스트 내에 텐서보팅이 처리되지 않은 후보객체가 존재하면, 상기 244 내지 248단계를 진행하여 상기 후보객체의 텐서보팅을 반복적으로 수행한다. 반면, 상기 후보객체에 대한 텐서보팅이 모두 처리되었으면, 후보객체의 텐서보팅 처리를 종료하게 된다.
나아가 전술한 문자 검출 방법의 성능을 평가하기 위하여, 영상에 포함된 문자를 검출하는 성능을 실험하였다. 본 발명의 일 실시예에 따른 실험예에서는 도 9에 도시된 640×480 해상도의 12개의 라벨 영상을 사용하였다.
그리고, 에지 기반 방법에 따른 비교예1과, 연결요소 기반방법에 따른 비교예2를 본 발명에 따른 실시예와 비교하였다. 본 발명의 실험예에서는 영상 내에 포함된 문자의 수(S), 문자 검출에 성공한 문자 영역의 수(T), 및 오검출된 영역의 수(F)을 측정하였고, 이를 이용한 정밀도(precision) 및 검출률(Recall Rate)을 산출하여 문자 검출 성능을 비교하였다. 비교 결과는 하기의 표에 도시된다.
비교예1 비교예2 실시예
S 1161 1161 1161
T 1016 908 880
F 77 391 450
정밀도 92.96% 69.9% 66.17%
검출률 87.51% 66.17% 75.80%
표 1에 개시된 바와 같이, 본 발명의 실시예에 따른 방법은 비교예1 및 2에 따른 방법에 비하여 상대적으로 우수한 정밀도(precision) 및 검출률(Recall Rate)을 나타낸다.
본 발명에 따른 문자 검출 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.
이상에서 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 이것에 의해 한정되지 않으며 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 수정 및 변형이 가능함은 물론이다.
도 1은 본 발명의 일 실시예에 따른 문자영역 검출 장치의 대략적인 구성을 도시하는 블록도,
도 2a는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 원본 영상의 예시도,
도 2b는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 그레이 영상의 예시도,
도 2c는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 경계영역 영상의 예시도,
도 2d는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 제1 문자후보 영상의 예시도,
도 3a는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 그레이 영상의 예시도,
도 3b는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 후보객체의 경계영역 영상의 예시도,
도 3c는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 후보객체 영상의 예시도,
도 3d는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 후보객체 중심점 영상의 예시도,
도 4a는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되 는 텐서보팅 영상의 예시도,
도 4b는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 제2 문자후보영역 영상의 예시도,
도 5a는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 팽창 영상의 예시도,
도 5b는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 문자영역 추출 영상의 예시도,
도 5c는 본 발명의 일 실시예에 따른 문자영역 검출 장치 및 방법에 예시되는 문자 영상의 예시도,
도 6은 본 발명의 일 실시예에 따른 문자영역 검출 방법의 순서를 도시하는 흐름도이다.
도 7은 도 6의 230단계의 동작 순서를 구체적으로 도시하는 흐름도,
도 8은 도 6의 240단계의 동작 순서를 구체적으로 도시하는 흐름도,
도 9는 본 발명의 일 실시예에 따른 실험예에 사용된 12개의 라벨 영상을 예시하는 도면.

Claims (17)

  1. 영상 내에서 문자가 포함된 영역을 검출하는 방법에 있어서,
    입력된 영상을 그레이 영상으로 변환하는 단계와,
    상기 그레이 영상에서 제1 문자후보영역을 확인하는 과정과,
    상기 그레이 영상에 텐서보팅을 적용하여 제2 문자후보영역을 확인하는 과정과,
    확인된 상기 제1 및 제2 문자후보영역이 일치하는 영역을 확인하고, 문자가 포함된 영역을 검출하여 문자를 추출하는 과정을 포함함을 특징으로 하는 문자 검출 방법.
  2. 제1항에 있어서, 상기 제1 문자후보영역을 확인하는 과정은
    상기 그레이 영상에서 영상에 포함된 적어도 하나의 사물의 경계(Edge) 영역을 추출하는 과정과,
    상기 추출된 경계영역들로부터 적어도 하나의 제1 문자후보영역을 추출하는 과정을 포함함을 특징으로 하는 문자 검출 방법.
  3. 제2항에 있어서, 상기 경계 영역의 추출은 캐니 에지 알고리즘(Canny Edge Algorithm)을 이용하는 것을 특징으로 하는 문자 검출 방법.
  4. 제2항에 있어서, 상기 제1 문자후보영역을 확인하는 과정은,
    문자의 특성을 고려하여, 상기 제1 문자후보영역에 포함된 비 문자 영역을 검출하고, 검출된 비 문자 영역을 제거하는 과정을 더 포함함을 특징으로 하는 문자 검출 방법.
  5. 제1항에 있어서, 상기 제2 문자후보영역을 확인하는 과정은,
    상기 그레이 영상에서 문자로 예상되는 후보객체를 검출하는 과정과,
    검출된 상기 후보객체를 텐서보팅에 적용하는 과정과,
    상기 텐서보팅 적용 결과를 고려하여 상기 제2 문자후보영역을 추출하는 과정을 포함함을 특징으로 하는 문자 검출 방법.
  6. 제1항에 있어서, 상기 제2 문자후보영역을 확인하는 과정은,
    상기 그레이 영상에서 문자로 예상되는 후보객체를 검출하고, 상기 후보객체의 중심점을 검출하는 과정과,
    검출된 상기 후보객체의 중심점을 텐서보팅에 적용하는 과정과,
    상기 텐서보팅 적용 결과를 고려하여 상기 제2 문자후보영역을 추출하는 과정을 포함함을 특징으로 하는 문자 검출 방법.
  7. 제6항에 있어서, 상기 제2 문자후보영역을 추출하는 과정은,
    상기 텐서보팅을 적용한 결과값이 미리 정해진 값보다 상대적으로 큰 돌출 도(saliency)를 나타내는 해당 후보객체를 상기 제2 문자후보영역으로 추출하는 것을 특징으로 하는 문자 검출 방법.
  8. 제5항 또는 제6항에 있어서, 상기 그레이 영상에 수직 및/또는 수평 성분의 라인 소벨(Line Sobel) 연산을 수행함으로써, 상기 문자로 예상되는 후보객체를 확인하는 것을 특징으로 하는 문자 검출 방법.
  9. 제5항 또는 제6항에 있어서, 문자의 구조적 특성을 고려하여, 상기 문자로 예상되는 후보객체를 검출하는 것을 특징으로 하는 문자 검출 방법.
  10. 제1항에 있어서, 상기 문자가 포함된 영역을 검출하는 과정은,
    상기 제1 및 제2 문자후보영역이 중복되는 영역을 검출하는 과정과,
    상기 제2 문자후보영역에 수평 및/또는 수직 방향의 팽창 연산(dilation operation)을 수행하는 과정과,
    상기 팽창연산을 통해 연결된 제2 문자후보영역들을 상기 문자가 포함된 영역으로 추출하는 과정을 포함함을 특징으로 하는 문자 검출 방법.
  11. 영상 내에서 문자가 포함된 영역을 검출하는 장치에 있어서,
    입력된 영상을 그레이 영상으로 변환하는 이미지 변환부와,
    상기 이미지 변환부로부터의 출력되는 그레이 영상에 경계(Edge) 영역 검출 알고리즘을 적용하여 제1 문자후보영역을 확인하는 제1 문자후보영역 확인부와,
    상기 이미지 변환부로부터의 출력되는 그레이 영상에 텐서보팅을 적용하여 제2 문자후보영역을 확인하는 제2 문자후보영역 확인부와,
    상기 제1 및 제2 문자후보영역을 확인하여, 문자가 포함된 영역을 검출하고, 상기 문자가 포함된 영역에 포함된 문자를 검출하는 문자 검출부를 포함함을 특징으로 하는 문자 검출 장치.
  12. 제11항에 있어서, 상기 제1 문자후보영역 확인부는,
    상기 그레이 영상에 캐니 에지 검출 알고리즘(Canny Edge Detection Algorithm)을 적용하여 경계영역을 검출하는 경계영역 검출부와,
    상기 경계영역 검출부를 통해 적어도 하나의 검출된 경계영역으로부터 제1 문자후보영역을 검출하는 제1 문자후보영역 검출부를 포함함을 특징으로 하는 문자 검출 장치.
  13. 제11항에 있어서, 상기 제2 문자후보영역 확인부는,
    상기 그레이 영상에서 문자로 예상되는 후보객체를 검출하는 후보객체 검출부와,
    검출된 상기 후보객체를 텐서보팅에 적용하는 텐서보팅 처리부와,
    상기 텐서보팅 적용 결과를 고려하여 상기 제2 문자후보영역을 추출하는 제2 문자후보영역 검출부를 포함함을 특징으로 하는 문자 검출 장치.
  14. 제11항에 있어서, 상기 후보객체 검출부는 상기 후보객체의 중심점을 검출하고,
    상기 텐서보팅 처리부는 검출된 상기 후보객체의 중심점을 텐서보팅에 적용하는 것을 특징으로 하는 문자 검출 장치.
  15. 제13항에 있어서, 상기 제2 문자후보영역 검출부는,
    상기 텐서보팅을 적용한 결과값이 미리 정해진 값보다 상대적으로 큰 돌출도(saliency)를 나타내는 해당 후보객체를 상기 제2 문자후보영역으로 추출하는 것을 특징으로 하는 문자 검출 장치.
  16. 제14항에 있어서, 상기 후보객체 검출부는, 상기 그레이 영상에 수직 및/또는 수평 성분의 라인 소벨(Line Sobel) 연산하여 상기 문자로 예상되는 후보객체를 확인하는 것을 특징으로 하는 문자 검출 장치.
  17. 제11항에 있어서, 상기 문자 검출부는,
    상기 제1 및 제2 문자후보영역이 중복되는 영역을 검출하고, 상기 제2 문자후보영역에 수평 및/또는 수직 방향의 팽창 연산(dilation operation)을 수행하고, 상기 팽창연산을 통해 연결된 제2 문자후보영역들을 상기 문자가 포함된 영역으로 추출하는 것을 특징으로 하는 문자 검출 장치.
KR1020090099443A 2009-10-19 2009-10-19 문자 검출 방법 및 장치 KR101048399B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090099443A KR101048399B1 (ko) 2009-10-19 2009-10-19 문자 검출 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090099443A KR101048399B1 (ko) 2009-10-19 2009-10-19 문자 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110042665A true KR20110042665A (ko) 2011-04-27
KR101048399B1 KR101048399B1 (ko) 2011-07-12

Family

ID=44048039

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090099443A KR101048399B1 (ko) 2009-10-19 2009-10-19 문자 검출 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101048399B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599280A (zh) * 2015-02-02 2015-05-06 武汉大学 一种道路裂缝交叉点提取方法及系统
US9305239B2 (en) 2014-05-13 2016-04-05 Samsung Electronics Co., Ltd. Detecting and processing small text in digital media
CN112541417A (zh) * 2020-12-03 2021-03-23 山东众阳健康科技集团有限公司 一种文字检测中使用的高效解码方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9305239B2 (en) 2014-05-13 2016-04-05 Samsung Electronics Co., Ltd. Detecting and processing small text in digital media
CN104599280A (zh) * 2015-02-02 2015-05-06 武汉大学 一种道路裂缝交叉点提取方法及系统
CN104599280B (zh) * 2015-02-02 2018-01-12 武汉大学 一种道路裂缝交叉点提取方法及系统
CN112541417A (zh) * 2020-12-03 2021-03-23 山东众阳健康科技集团有限公司 一种文字检测中使用的高效解码方法
CN112541417B (zh) * 2020-12-03 2022-09-16 山东众阳健康科技集团有限公司 一种文字检测中使用的高效解码方法

Also Published As

Publication number Publication date
KR101048399B1 (ko) 2011-07-12

Similar Documents

Publication Publication Date Title
US10817741B2 (en) Word segmentation system, method and device
Ryan et al. An examination of character recognition on ID card using template matching approach
US8175380B2 (en) Apparatus and method for improving text recognition capability
US9965695B1 (en) Document image binarization method based on content type separation
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
JP4626886B2 (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
US7715628B2 (en) Precise grayscale character segmentation apparatus and method
EP2605186B1 (en) Method and apparatus for recognizing a character based on a photographed image
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
CN112070649B (zh) 一种去除特定字符串水印的方法及系统
US11854209B2 (en) Artificial intelligence using convolutional neural network with hough transform
CN111209865A (zh) 文件内容提取方法、装置、电子设备及存储介质
KR101048399B1 (ko) 문자 검출 방법 및 장치
Bai et al. A fast stroke-based method for text detection in video
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN111445402B (zh) 一种图像去噪方法及装置
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
CN107330470B (zh) 识别图片的方法和装置
CN110134924A (zh) 重叠文本组件提取方法和装置、文本识别系统及存储介质
US20090245658A1 (en) Computer-readable recording medium having character recognition program recorded thereon, character recognition device, and character recognition method
KR100713335B1 (ko) 이미지 인식방법
Kumar et al. A comparative Analysis of Feature Extraction Algorithms and Deep Learning Techniques for Detection from Natural Images
Khan et al. Pre-Processing Images of Public Signage for OCR Conversion
JP2003281470A (ja) 文字認識装置及び文字認識方法
Sethi et al. Text Information Extraction: In Context of Indian Languages

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140430

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150702

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180625

Year of fee payment: 8