KR101176963B1 - 간판 영상 문자 인식 및 후처리 시스템 - Google Patents

간판 영상 문자 인식 및 후처리 시스템 Download PDF

Info

Publication number
KR101176963B1
KR101176963B1 KR1020100132253A KR20100132253A KR101176963B1 KR 101176963 B1 KR101176963 B1 KR 101176963B1 KR 1020100132253 A KR1020100132253 A KR 1020100132253A KR 20100132253 A KR20100132253 A KR 20100132253A KR 101176963 B1 KR101176963 B1 KR 101176963B1
Authority
KR
South Korea
Prior art keywords
input data
recognition
letters
comparison target
post
Prior art date
Application number
KR1020100132253A
Other languages
English (en)
Other versions
KR20120070795A (ko
Inventor
양형정
이명훈
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Priority to KR1020100132253A priority Critical patent/KR101176963B1/ko
Publication of KR20120070795A publication Critical patent/KR20120070795A/ko
Application granted granted Critical
Publication of KR101176963B1 publication Critical patent/KR101176963B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

한글에 대한 인식 분류를 낮춰 인식 속도를 향상시킬 뿐만 아니라, 다양한 형태의 인식 오류를 효과적으로 해소하는 것이 가능하도록 텍스트를 포함하는 간판 영상물의 입력을 위해 모바일기기에 형성된 카메라와, 입력된 간판 영상물로부터 텍스트영역을 찾아 글자 및 배경을 별도로 이진화 하는 이진구획기와, 입력데이터의 인식을 비교할 수 있도록 상기 모바일기기의 내부 또는 외부에 유선 또는 무선으로 연결되는 비교대상데이터베이스와, 상기 이진구획기에서 구획된 글자들을 개별로 분리하고 촬영에 의한 왜곡을 보정하여 상기 입력데이터를 인식하되, 상기 비교대상데이터베이스의 글자 중 사용빈도가 적어도 98%에 이르는 글자들로만 분류하여 인식하는 입력데이터인식기와, 인식된 상기 입력데이터의 정보를 사용자에게 제공하는 출력기를 포함하는 간판 영상 문자 인식 및 후처리 시스템을 제공한다.

Description

간판 영상 문자 인식 및 후처리 시스템{System for character recognition and post-processing in document image captured}
본 발명은 간판 영상 문자 인식 및 후처리 시스템에 관한 것으로, 더 상세하게는 전국에서 사용, 등록받은 상호명에 대한 데이터베이스를 통해 한글에 대한 인식 분류를 낮춰 인식 속도를 향상시킬 뿐만 아니라, 다양한 형태의 인식 오류를 후처리를 통해 효과적으로 해소하는 것이 가능한 간판 영상 문자 인식 및 후처리 시스템에 관한 것이다.
최근 스마트폰이 이슈화 되면서 다양한 형식의 어플리케이션들이 등장 하고 있다. 대표적으로 가장 많이 사용되는 애플사의 아이폰이나 삼성전자의 스마트폰과 마찬가지로 대부분 키보드가 없고 터치 기능으로 이루어져 있어 사용자의 입력을 최소화하고 있다.
이와 같이 사용자의 입력을 최소화할 수 있는 방법 중 가장 활발하게 개발이 진행되고 있는 입력 방법이 카메라를 통한 자동 인식 시스템이다. 예를 들면, 바코드가 표시된 영상을 입력받아 자동으로 인식하며, 소정의 데이터베이스를 조회하는 애플리케이션이나 도서의 표지를 인식하여 해당 도서의 정보를 제공하는 애플리케이션 등을 들 수 있다.
이와 같은 자동 인식 시스템의 공통점은 특정 형태의 이미지 정보를 인식하여 사용자에게 필요한 형태로 정보를 제공하도록 이루어지는 것이다. 즉, 상기와 같은 자동 인식 시스템을 구현하는데 있어서는 문자인식에 관한 기술의 발달이 주요한 핵심적 사항이 된다.
문자인식에 관한 기술은 오랫동안 연구되어 현재에는 다양한 분야에서 응용되고 있다. 과거에는 비교적 단순한 문서에서의 인쇄체를 인식하는 정도였으나 현재에는 복잡한 배경을 가진 자연 영상으로부터 텍스트를 찾아 인식하는 정도에 이르기까지 다양한 수준의 기술이 개시되고 있다. 하지만 아직 문서에서와 같이 정형화된 형태를 인식할 때보다는 인식률이 많이 떨어진다는 문제점을 안고 있다.
사람이 문자를 인식할 때는 개별문자를 인식 후에 전체 문장의 문맥이 맞는지를 파악하여 받아들이게 되므로 눈에 보이는 문자의 형태에만 의존하지 않고 정확하게 인식할 수 있게 된다.
이와 비교하여 종래의 문자 인식 시스템은 전처리 과정을 거처 획득한 개별문자를 인식하여 그 결과를 출력한다. 즉, 사람이 문자를 인식할 때와 같은 유연성을 갖춘 시스템을 만드는 데는 개별 문자의 인식 기술만으로는 아직 한계가 있다. 따라서, 문자 인식 시스템에서는 이러한 한계를 극복하기 위한 방향으로 다양한 형태의 연구 및 개발 활동이 진행 중이다.
예를 들면, 문자 인식과정에서 발생하는 오인식에 대한 교정을 통해 인식률을 높이는 방법인데, 크게 문맥적 지식의 확률적 표현에 기초한 방법, 문맥적 지식의 구조적 표현에 기초한 방법, 확률적 표현과 구조적 표현을 복합적으로 사용하는 복합적 방법으로 나눠지는 후처리 알고리즘들을 들 수 있다.
그러나, 문자 인식 시스템에서 발생하는 오류의 원인이 다양하므로 이러한 후처리 알고리즘만으로 다양한 인식의 오류를 일괄 해소한다는 것은 아직까지 요원한 일이다.
뿐만 아니라, 한글의 경우에는 글자를 구성하는 구조적인 문제로 인해 영어와 같은 다른 언어보다 훨씬 더 인식에 있어 오류를 일으킬 가능성이 크다. 즉, 한글은 초성, 중성, 종성의 조합으로 하나의 문자가 이루어지는 구조로 인해 유사한 형태의 문자가 무수히 많이 존재하므로 이로 인해 시스템상의 문자 인식에 오류의 여지가 많다는 근본적인 문제점을 안고 있다.
본 발명은 상기와 같은 점을 조감하여 이루어진 것으로서, 전국에서 사용 및 등록받은 상호명을 데이터베이스화 하여 한글에 대한 인식기의 분류 수준을 낮춰 인식 속도 향상을 도모할 수 있는 간판 영상 문자 인식 및 후처리 시스템을 제공하기 위한 것이다.
또한, 본 발명은 다양한 형태의 인식 오류에 대한 효과적인 후처리 알고리즘을 제안함으로써, 한글 문자에 대한 다양한 인식 오류 원인을 능률적으로 해소하는 것이 가능한 간판 영상 문자 인식 및 후처리 시스템을 제공하기 위한 것이다.
나아가, 본 발명은 거리에서 흔히 접할 수 있는 간판으로부터 여행자가 스스로 해당 지역에 대한 기본적인 정보를 간편하게 얻는 것이 가능한 간판 영상 문자 인식 및 후처리 시스템을 제공하기 위한 것이기도 하다.
본 발명이 제안하는 간판 영상 문자 인식 및 후처리 시스템은 텍스트를 포함하는 간판 영상물의 입력을 위해 모바일기기에 형성된 카메라와, 입력된 간판 영상물로부터 텍스트영역을 찾아 글자 및 배경을 별도로 이진화 하는 이진구획기와, 입력데이터의 인식을 비교할 수 있도록 상기 모바일기기의 내부 또는 외부에 유선 또는 무선으로 연결되는 비교대상데이터베이스와, 상기 이진구획기에서 구획된 글자들을 개별로 분리하고 촬영에 의한 왜곡을 보정하여 상기 입력데이터를 인식하되, 상기 비교대상데이터베이스의 글자 중 사용빈도가 적어도 98%에 이르는 글자들로만 분류하여 인식하는 입력데이터인식기와, 인식된 상기 입력데이터의 정보를 사용자에게 제공하는 출력기를 포함하여 이루어진다.
상기 비교대상데이터베이스는 전국에서 사용 및 등록을 받은 상호명으로 구성되고, 상기 입력데이터인식기는 상기 비교대상데이터베이스로부터 상기 입력데이터의 인식이 오류로 판정되는 경우, 상기 입력데이터의 글자별로 상기 비교대상데이터베이스에서 각각의 인식후보군을 추출, 형성하되, 상기 입력데이터의 문자열과 인식후보군으로 추출된 문자열 상호 간의 거리 값에 따라 정렬하여 상기 입력데이터에 대한 인식 오류를 교정하는 교정연산프로세서를 포함하는 형태로도 실시할 수 있다.
상기 교정연산프로세서는 상기 인식후보군의 형성 및 정렬을 위한 문자열 비교시 후보 순위를 고려할 수 있는 ILD(Improved Levenshtein Distance) 또는 자음을 분할한 ILD(Improved Levenshtein Distance) 알고리즘을 적용하여 이루어진다.
상기 입력데이터인식기와 출력기 간에는 인식된 상기 입력데이터의 정보를 사용자가 원하는 언어로 번역할 수 있는 번역기가 더 구비된 형태로도 실시될 수 있다.
본 발명에 따른 간판 영상 문자 인식 및 후처리 시스템에 의하면, 전국에서 사용 및 등록받은 상호명을 데이터베이스화 하여 입력데이터인식기의 한글 인식 범위를 줄이되, 신뢰성이 낮은 대상을 피하면서 검색 문자열의 음절을 제한하여 전반적인 인식성능을 향상시킨다.
그리고, 본 발명에 따른 간판 영상 문자 인식 및 후처리 시스템에 의하면, 인식후보군의 형성 및 정렬을 위한 문자열 비교시 후보 순위를 고려할 수 있는 ILD(Improved Levenshtein Distance) 또는 자음을 분할한 ILD(Improved Levenshtein Distance) 알고리즘을 적용한 교정연산프로세서을 채택함으로써, 문자 인식에 있어 다양한 원인으로 인한 오인식을 포함한다 하더라도 교정을 위한 후처리 과정을 통해 일괄 해소하는 것은 물론, 오인식에 대한 교정에 걸리는 연산시간을 줄이는 등의 기술적 효과를 도모한다.
뿐만 아니라, 본 발명에 따른 간판 영상 문자 인식 및 후처리 시스템에 의하면, 입력데이터인식기와 출력기 간에는 사용자가 원하는 언어로 해당 정보를 번역하는 번역기를 채택, 적용함으로써, 여행자 스스로 언제 어디서나 해당 지역에 대한 기본 정보를 간편하게 알 수 있는 편의성을 얻는다.
도 1은 본 발명의 제1 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템을 개괄적으로 나타내는 블록개념도이다.
도 2는 본 발명의 제2 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템을 개괄적으로 나타내는 블록개념도이다.
도 3은 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템의 개괄적인 처리 과정을 나타내는 순서도이다.
도 4는 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템에서의 입력데이터에 대한 인식 값과 각 인식 값에 대한 인식후보군을 나타내는 개념도이다.
도 5는 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템에서의 입력데이터와 인식후보군의 문자열 간의 거리 값 산출을 나타내는 개념도이다.
도 6은 문자열에 대한 거리 값 산출시 대표적으로 사용되는 LD(Levenshtein Distance) 알고리즘의 연산과정을 나타내는 개념도이다.
도 7은 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템에서 교정연산프로세서의 ILD 알고리즘에 따른 연산과정을 나타내는 개념도이다.
다음으로 본 발명의 바람직한 실시형태에 따른 간판 영상 문자 인식 및 후처리 시스템의 기술구성을 첨부한 도면을 참조하여 상세히 설명한다.
본 발명이 제안하는 간판 영상 문자 인식 및 후처리 시스템은 도 1 또는 2에서 나타내는 바와 같이, 휴대폰이나 스마트폰과 같은 소정의 모바일기기(10) 내에 구비되어 휴대성과 함께 사용상의 편의성을 겸비할 수 있도록 구성된다.
구체적으로는 카메라(11)와 이진구획기(12), 비교대상데이터베이스(16)(20), 입력데이터인식기(13) 및 출력기(14)를 포함하여 이루어진다.
상기 카메라(11)는 상기 모바일기기(10)에 장착, 구비되는 형태로, 텍스트를 포함하는 각종 간판 영상물의 사용자 직접 찍어 입력할 수 있도록 하기 위한 것이다.
상기 이진구획기(12)의 경우, 다양한 형태로 실시할 수 있으나, 주요한 기능은 상기 카메라(11)로부터 입력된 간판 영상물에서 텍스트영역 즉, 글자가 형성된 영역을 찾아 글자 및 배경을 별도로 이진화하는 것이다.
상기 이진구획기(12)에서는 다양한 오인식의 원인이 있을 수 있다. 예를 들면, 간판의 영상 촬영시 주변 건물이나 시설물 등의 그림자로 인해 텍스트영역을 잘못 인식할 수 있고, 햇빛의 하이라이트로 인해 텍스트영역의 분간이 어려운 경우도 발생할 수 있다. 이외에도, 배경과 텍스트영역이 명확하게 구분되지 않는 경우 즉, 간판의 배경색과 간판이 달린 건물의 색상이 동일할 경우 또는, 영상물을 촬영하는 각도나 형태가 틀어진 경우 즉, 간판 아래에서 이루어지는 촬영으로 인해 생기는 영상물의 왜곡현상 등 다양한 오류의 원인이 생길 수 있다.
이와 같이 다양한 원인에서 비롯되는 문자 인식기의 오인식에 대해 본 발명은 교정을 위한 일괄적인 후처리 과정을 적용할 수 있도록 소정의 비교대상데이터베이스(16)(20)와 입력데이터인식기(13)에 대해 구체적으로 제안한다.
상기 비교대상데이터베이스(16)(20)는 상기 이진구획기(12)에서 구획된 입력데이터의 인식을 비교하기 위한 것으로, 도 1과 2에서 각각 나타내는 것처럼 상기 모바일기기(10)의 내부 또는 외부에 유선 또는 무선으로 연결, 구성할 수 있다.
상기 비교대상데이터베이스(16)(20)는 상기 모바일기기(10)의 내부에 유선으로 연결되는 경우에는 휴대가능한 소정의 메모리 칩(chip) 형태 또는 자체 내에 구비된 소정 용량의 메모리 등을 이용한 형태를 들 수 있고, 상기 모바일기기(10)의 외부에 형성되어 무선으로 연결되는 경우에는 무선망으로 연결, 구성된 각종 서버시스템과 같은 형태를 들 수 있다.
본 발명의 상기 비교대상데이터베이스(16)(20)는 전국 전화번호부에 등재된 상호명 즉, 전국 전화번호부 상호명 DB로 구성된다.
상기 입력데이터인식기(13)는 상기 이진구획기(12)에서 구획된 글자들을 개별로 분리하고 촬영에 의한 왜곡을 보정하여 상기 입력데이터를 인식하기 위한 것으로, 상기 비교대상데이터베이스(16)(20)의 글자 예로, 전국 전화번호부 상호명 DB 중 사용빈도가 적어도 98%에 해당하는 글자들로 분류하여 인식할 수 있도록 구성한다.
여기서, 사용빈도가 적어도 98%라는 것은, 상기 비교대상데이터베이스(16)(20)의 실제 대상인 전국 전화번호부 상호명 DB를 분석하여 각 글자별 사용빈도를 측정한 결과로써, 전체 글자 중 사용빈도가 빈번한 글자들이 갖고 있는 전체 대비 점유율을 의미하는 것으로, 이하에서도 동일한 의미로 사용한다.
예컨데, 사용빈도가 2%에 해당하는 글자들은 사용빈도가 10회 미만인데 비해 98%에 해당하는 글자들은 사용빈도가 100회 이상으로 빈도 수의 차이가 클 뿐만 아니라, 실제 사용될 확률도 크다는 점에 착안하여 인식기의 성능 향상을 위해서는 사용빈도가 2%에 지나지 않는 글자들을 제하고 나머지 98%에 해당하는 글자들로만 비교대상데이터베이스(16)(20)로 사용할 수 있도록 구성하는 것이 좋다.
한글의 경우, 영문과 비교하여 상대적으로 글자의 분류 개수가 많으므로 인식기의 구현상에 있어서는 상당한 장애요소다. 즉, 영문자의 경우 A부터 Z에 이르기까지 총 26자로 분류되는데 비해 한글은 초성, 중성, 종성이 각각 19, 21, 28자의 조합으로 이루어져 총 11,172자이고, 이중 실제로 사용되는 글자만으로 축소한다 하더라도 2,667자에 이른다.
이러한 글자의 분류 개수는 인식기의 인식성능과 직결되므로 이것을 어떻게 낮추느냐는 한글 문자 인식기의 기술구성상에 있어서 중요한 과제가 된다.
본 발명의 실시 형태에서는 이러한 문제점에 대해 전국 전화번호부에 등재된 상호명을 비교대상데이터베이스(16)(20)로 구성한 것과 연계해서 상기 비교대상데이터베이스(16)(20)의 글자 중 사용빈도가 적어도 98%에 해당하는 글자들로 상기 입력데이터인식기(13)의 한글에 대한 인식 분류량을 낮춤으로써, 인식 성능을 제고하는 기술적 효과를 발휘한다.
상기 입력데이터인식기(13)는 상기 비교대상데이터베이스(16)(20)로부터 상기 입력데이터의 인식이 오류로 판정되는 경우, 상기 입력데이터에 대한 오인식을 교정하기 위한 교정연산프로세서(13a)를 포함하는 형태로도 실시될 수 있다.
상기 교정연산프로세서(13a)는 상기 입력데이터의 인식이 오류로 판정되었을 때, 상기 입력데이터의 글자별로 상기 비교대상데이터베이스(16)(20)에서 각각의 인식후보군을 추출, 형성할 수 있도록 이루어진다.
이때, 상기 교정연산프로세서(13a)에 의한 상기 인식후보군의 정렬은 상기 입력데이터의 문자열과 인식후보군으로 추출된 문자열 상호 간의 거리 값에 따라 순차적으로 이루어지도록 한다. 여기서, 거리 값이란, 입력데이터 및 인식후보군 문자열 상호 간의 부합 여부를 소정의 알고리즘을 통한 연산방식에 따라 얻어지는 일종의 계수에 해당하는 것으로 이하에서도 동일한 의미로 사용한다.
상기 거리 값(Distance)은 작을수록 상기 입력데이터의 문자열과 인식후보군 문자열 상호 간의 유사도가 높고, 반대로 클 경우에는 유사도가 떨어져 서로 다른 것으로 판단할 수 있는 근거를 제공하는 역할을 한다.
또, 상기 인식후보군을 형성함에 있어서, 상기 교정연산프로세서(13a)는 상기 입력데이터의 문자열 길이와 상기 비교대상데이터베이스(16)(20)의 문자열 길이를 비교하여 ±2에 해당하는 길이 및 상기 입력데이터의 음절과 상기 비교대상데이터베이스(16)(20)의 음절을 비교하여 적어도 40%에 부합되는 음절의 문자열을 대상으로 삼도록 하여 신뢰성이 낮은 대상은 피하는 동시에 연산 소요시간을 단축하는 등의 기술적 특징을 발휘한다.
이때, 적정수준의 부합도 40%는 비교대상이 되는 두 문자열 간의 거리 값을 백분율로 환산한 수치로, 이하에서도 동일한 의미로 사용한다.
이와 같은 본 발명에 따른 교정연산프로세서(13a)는 상기 입력데이터와 같은 길이의 문자열만을 검색하도록 하였을 때, 상기 이진구획기(12)에서 상기 입력데이터의 분할상의 오류 예로, 과도하거나 미진한 분할과 같은 오류를 적절히 해소하는 것이 가능하게 된다.
상기 교정연산프로세서(13a)는 상기 인식후보군의 형성 및 정렬을 위한 문자열 비교시 후보 순위를 고려할 수 있는 ILD(Improved Levenshtein Distance) 또는 자음을 분할한 ILD(Improved Levenshtein Distance)-전자와의 구별을 위해 이하에서는 'D-ILD'로 칭함- 알고리즘을 적용한 형태로 구성된다.
여기서, LD(levenshtein distance)와 다른 ILD(Improved levenshtein distance) 알로리즘의 특징을 우선 간략하게 설명하면, LD는 삽입, 삭제, 대치 연산비용이 1로 고정되는 것인 반면에 ILD는 후보음절을 고려하여 연산비용에 가중치를 적용한다는 것이다. 따라서, ILD의 경우 기존의 LD보다 최종 거리 값(distance)이 달라지게 되므로 더욱 연산의 정밀도는 물론, 신속성을 보장할 수 있는 기술적 효과를 얻는다.
그리고, '자음을 분할한 ILD(Improved Levenshtein Distance)'에서 '자음 분할'의 의미는, 거리 값(distance) 산출의 기본 단위를 글자의 음소 단위로 하기 위하여 글자 하나를 초, 중, 종성으로 분리하여 비교할 수 있도록 나누는 것을 의미하며, 이하에서도 동일한 의미로 사용한다.
ILD(Improved Levenshtein Distance) 알고리즘은 상기 인식후보군 내에 상기 입력데이터에 해당하는 정답 글자가 포함되어 있을 경우, D-ILD보다 좋은 성능을 발휘한다. 하지만, 상기 인식후보군 내에 상기 입력데이터에 해당하는 정답 글자가 포함되어 있지 않을 경우에는 ILD보다 D-ILD 알고리즘이 더 뛰어난 성능을 발휘한다.
상기 출력기(14)는 인식된 상기 입력데이터의 정보를 사용자에게 제공하기 위한 것으로 상기 모바일기기(10)에 구비된 스피커 또는 디스플레이 화면 등으로 구성될 수 있다.
본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템은 상기 입력데이터인식기(13)와 출력기(14) 간에는 소정의 번역기(15)가 구비되어 상기 입력데이터에 의한 인식 정보를 사용자가 원하는 언어로 번역하여 표시하는 형태로도 실시할 수 있다. 이때, 본 발명에 따른 시스템은 사용자가 문자 인식을 위한 언어는 물론 번역을 위한 언어를 각각 선택할 수 있도록 구성됨은 당연하다.
도 3의 순서도를 참조하여 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템의 개괄적인 처리 과정을 간략하게 설명하면 다음과 같다.
먼저, 간판 영상물 입력 단계(S10)에서는 사용자가 상기 모바일기기(10)의 카메라(11)를 이용하여 텍스트를 포함하는 간판 영상물을 찍어 입력한다.
이후, 입력된 간판 영상물로부터 텍스트영역을 찾아 글자 및 배경을 별도로 나눠 구분하는 글자 및 배경 이진화 단계(S20)를 거친다.
상기 글자 및 배경 이진화 단계(S20)에서 구획된 글자들을 개별로 분리하고 촬영에 의한 왜곡을 보정하여 상기 입력데이터의 정보를 인식하기 위한 비교대상데이터베이스 연동 단계(S30)를 거쳐 상기 입력데이터에 대한 오인식 여부를 판정하는 단계(S40)를 거친다.
이때, 상기 입력데이터인식기(13)는 상기 입력데이터의 글자를 상기 비교대상데이터베이스(16)(20)의 글자 중 사용빈도가 적어도 98%에 해당하는 글자들로 분류하여 인식한다.
상기 입력데이터에 대한 오인식 여부를 판정하는 단계(S40)에서 오인식이 아닌 경우에는 상기 입력데이터의 정보를 번역하는 정보번역단계(S55)를 거쳐 스피커 또는 디스플레이 화면으로 해당 정보를 표시하는 정보표시단계(S60)로 이어져 종료하거나, 정보번역단계(S55) 없이 곧바로 정보표시단계(S60)로 이어지는 처리과정을 따라 일단락 짓고, 상기 입력데이터에 대한 오인식 여부를 판정하는 단계(S40)에서의 오인식으로 인한 교정은 오인식 교정단계(S50)를 경유한 뒤 상기 정보번역단계(S55) 및 정보표시단계(S60)로 연계된다.
상기 오인식 교정단계(S50)에서 상기 입력데이터인식기(13)의 상기 교정연산프로세서(13a)는 상기 입력데이터의 문자열 길이와 비교하여 ±2에 해당하는 길이 및 상기 입력데이터의 음절과 비교하여 적어도 40%에 부합되는 음절의 문자열을 대상으로 상기 인식후보군을 추출, 정렬하고, ILD 또는 D-ILD 알고리즘에 따른 연산 비용 산출을 통해 교정 절차를 진행하게 된다.
다음에서는 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템의 입력데이터와 인식후보군들 간의 거리 값과 연산 비용 산출에 관한 알고리즘에 대해 살펴본다.
도 4에서 나타내는 바와 같이 본 발명의 실시 형태에 따른 이진구획기(12) 및 입력데이터인식기(13)로부터 입력되는 입력데이터의 인식 값과 각각의 인식 값에 대한 인식후보는 다음 수학식 1과 같이 정의된다.
Figure 112010084734179-pat00001
여기서, R1,R2,...,Rm은 m개의 음절로 된 상호명이며, 각각의 음절마다 인식부호 음절을 갖는다. 따라서, 인식후보를 고려한 입력데이터의 인식 값은 다음 수학식 2와 같이 정의할 수 있다.
Figure 112010084734179-pat00002
예를 들어, n개의 인식후보를 갖는 m개 음절의 상호명을 입력데이터의 인식 값에 대해 다음 수학식 3과 같은 행렬을 얻는다.
Figure 112010084734179-pat00003
도 5에서 나타내는 바와 같이, 입력데이터의 인식 값으로부터 가장 유사한 상호명을 찾기 위하여 전국 전화번호부에 등재된 상호명으로 구성된 비교대상데이터베이스(16)(20)로부터 추출하여 얻어진 결과를 인식후보군이라면, 인식후보군의 각 상호명에 대해서 입력데이터와의 거리 값을 산출한다.
먼저, 문자열에 대한 거리 값 산출에 대표적으로 사용되는 LD(Levenshtein Distance) 알고리즘에 대해 살펴본다.
LD 거리 척도는 두 문자열이 주어졌을 때, 한 문자열이 다른 문자열로 변환되는데 필요한 연산 비용을 산출한다. LD의 거리 계산은 다음 수학식 4로 정의할 수 있다.
Figure 112010084734179-pat00004
여기서 α,β,γ는 삽입, 삭제, 대치 연산에 대한 추가비용이고 LD에서는 α=β=γ=1로 주어진다. 따라서 LD의 연산 과정은 도 6에서 나타내는 바와 같다.
LD에서는 문자열과 문자열을 계산하는 알고리즘으로 입력데이터의 인식 값에 대한 인식후보 중 신뢰도가 가장 높은 1순위의 음절만을 이용할 수밖에 없고, 입력문자를 교정하고자 할 때 소요되는 연산을 각 삽입, 삭제, 대치 연산으로 보고 각 연산 비용은 모두 1로 계산한다.
하지만, LD에서 인식후보군의 순위를 고려할 수 없으므로 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템의 교정프로세서(13a)에서는 후보 순위를 고려할 수 있는 ILD 알고리즘을 적용한다.
ILD 알고리즘에서는 대치되는 연산에 대해 인식후보군의 순위를 고려하여 연산 비용을 조절한다. 즉, ILD 알고리즘에서는 삽입과 삭제 연산의 비용은 1로 하고, 대치되는 연산비용에 대해서는 가중치를 조절한다.
ILD 알고리즘에서의 대치연산시 입력데이터와 인식후보군 순위의 음절들과 비교하여 일치되는 음절이 있을 경우 가중치를 적용한 γ값을 적용하여 LD와 동일한 연산을 수행한다. γ는 다음 수학식 5과 같이 정의할 수 있다.
Figure 112010084734179-pat00005
여기서, d값은 고려되는 인식후보의 순위에 따라서 0~1 사이의 값을 가중치로 준다. 0이 의미하는 값은 일치한다는 의미이고, 1이 의미하는 값은 서로 불일치한다는 의미이다. 대치 연산은 해당음절을 다른 문자로 수정하는 연산이다. 따라서 하나의 문자 이외에 다른 모든 문자는 모두 1의 값을 갖게 된다. 후보 순위는 신뢰도를 나타낸다. 1순위를 100% 신뢰한다고 했을 때, 차후 인식후보 순위에 대해서는 그 신뢰성을 감소시킨다는 의미이다. 다음 표1 은 인식후보를 5순위까지 고려하였을 때 대치 연산에 대한 연산비용을 나타낸다.
입력 후보음절
1 2 3 4 5 없음
R1 r11 r12 r13 r14 r15
R2 r21 r22 r23 r24 r25
... ... ... ... ... ...
Rm rm1 rm2 rm3 rm4 rm5
W W1=0 W2=0.2 W3=0.4 W4=0.6 W5=0.8 W=1
대치 연산시 해당 인식후보의 음절을 고려하여 해당 인식후보의 음절에 일치되는 음절이 존재할 경우 해당 인식후보 음절의 순위에 따라 연산 비용을 조정한다. 즉, 해당 인식후보의 순위가 떨어질수록 연산 비용이 더 소요되고, 존재하지 않을 경우 연산 비용의 최대치인 1이 소요되도록 조절한다. 따라서 인식결과의 해당 인식후보 순위가 높을수록 ILD거리는 짧아지게 된다. 이와 같은 연산과정은 도 7과 같다.
동일한 입력데이터를 이용하여 LD 알고리즘으로 거리 값을 산출하였을 때는 4가 되지만, ILD 알고리즘으로 거리 값을 산출하였을 때는 2가 됨을 알 수 있다.
ILD를 통해 구해진 거리 값은 비교되는 인식후보군의 문자열 길이에 따라 다르기 때문에 소요되는 연산 횟수도 달라진다. 따라서 정규화 과정이 필요하다. 이와 같은 정규화는 다음 수학식 6을 통해 얻는다.
Figure 112010084734179-pat00006
정규화는 교정거리를 교정연산의 횟수로 나눈 값이고, 0에서 1 사이로 표현되며, 1에 가까울수록 더 가깝다.
한글은 영문과 다르게 하나의 문자가 초성, 중성, 종성으로 조합으로 이루어지므로 각 자음별로 유사한 형태가 존재하고, 문자 인식 시스템은 이러한 한글의 구조로 인해 오인식이 발생하는 경우가 많다. 예를 들어, “개”와 “걔”는 하나의 획의 차이로 서로 다른 글자이지만, 외형상으로 이 둘은 상당히 유사한 글자라 영문과는 또 다른 오인식의 원인이 된다. 이와 같은 오인식의 원인을 고려하기 위하여 음절을 분해하여 ILD를 적용할 수 있다.
하나의 분해된 음절의 자음은 분해된 다른 인식후보 음절과의 자음과 중복되는 경우가 발생할 수 있다. 이에 따라, D-ILD에서는 대치 연산의 연산비용을 다르게 적용하여야 한다. 즉, 인식후보의 순위가 높고 중복 횟수가 많을수록 신뢰도가 높다는 가정 하에 연산비용을 조절하는 것이다. 따라서 인식후보의 순위가 높고 중복될수록 연산 비용은 적어지게 된다. 우선 후보 순위에 따른 연산비용을 다음의 표 2와 같이 정의할 수 있다.
입력 후보음절
1 2 3 4 5 없음
R1 r11 r12 r13 r14 r15
R2 r21 r22 r23 r24 r25
... ... ... ... ... ...
Rm rm1 rm2 rm3 rm4 rm5
W W1=1 W2=0.8 W3=0.6 W4=0.4 W5=0.2 W=0
자음을 분해하게 되면 각각의 후보끼리 일치하는 경우가 존재한다. 이럴 경우, 중복된 것들을 합하여 다음 수학식 7을 통해 연산비용을 산출한다.
Figure 112010084734179-pat00007
산출된 대치 연산 비용은 인식후보 순위와 중복 횟수가 고려되어 산정된다. 따라서 동일한 중복 횟수라도 후보 순위에 따라 연산 비용은 다르게 된다.
이상과 같은 ILD 및 D-ILD 알고리즘에 대해 정리하면, 상기 인식후보군 내에 상기 입력데이터에 해당하는 정답 글자가 포함되어 있을 경우, ILD이 D-ILD 알고리즘보다 더 좋은 성능을 발휘하는 한편, 상기 인식후보군 내에 상기 입력데이터에 해당하는 정답 글자가 포함되어 있지 않을 경우에는 D-ILD이 ILD 알고리즘보다 더 뛰어난 성능을 발휘한다.
따라서, 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템의 상기 교정연산프로세서(13a)는 인식후보의 순위를 고려할 수 있는 ILD 또는 자음을 분할한 ILD 알고리즘을 적용한 형태를 채택, 구성하는 것이다.
상기에서는 본 발명의 실시 형태에 따른 간판 영상 문자 인식 및 후처리 시스템에 대하여 설명하였지만, 본 발명의 기술사상이 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명의 범위 안에서 당업자가 여러 가지로 변형 및 변경 실시할 수 있는 것 또한 본 발명의 범위에 속한다.
10 : 모바일기기 11 : 카메라
12 : 이진구획기 13 : 입력데이터인식기
13a: 교정연산프로세서 14 : 출력기
15 : 번역기 16, 20: 비교대상데이터베이스

Claims (7)

  1. 텍스트를 포함하는 간판 영상물의 입력을 위해 모바일기기(10)에 형성된 카메라(11)와;
    상기 모바일기기(10) 내에 구비되어 입력된 간판 영상물로부터 텍스트영역을 찾아 글자 및 배경을 별도로 이진화 하는 이진구획기(12)와;
    상기 간판 영상물로부터 글자로 입력된 입력데이터의 인식을 비교할 수 있도록 상기 모바일기기(10)의 내부 또는 외부에 유선 또는 무선으로 연결되는 비교대상데이터베이스(16)(20)와;
    상기 이진구획기(12)에서 구획된 글자들을 개별로 분리하고 촬영에 의한 왜곡을 보정하여 상기 입력데이터를 인식하되, 상기 비교대상데이터베이스(16)(20)의 글자 중 사용빈도가 적어도 98%에 이르는 글자들로 분류하여 인식하는 입력데이터인식기(13)와;
    인식된 상기 입력데이터의 정보를 사용자에게 제공하는 출력기(14)를 포함하고,
    상기 입력데이터인식기(13)는 상기 비교대상데이터베이스(16)(20)로부터 상기 입력데이터의 인식이 오류로 판정되는 경우, 상기 입력데이터의 글자별로 상기 비교대상데이터베이스(16)(20)에서 각각의 인식후보군을 추출, 형성하되, 상기 입력데이터의 문자열과 인식후보군으로 추출된 문자열 상호 간의 거리 값에 따라 정렬하여 상기 입력데이터에 대한 인식 오류를 교정하는 교정연산프로세서(13a)를 포함하며, 상기 교정연산프로세서(13a)는 상기 인식후보군의 형성 및 정렬을 위한 문자열 비교시 후보 순위를 고려할 수 있는 ILD(Improved Levenshtein Distance) 또는 자음을 분할한 ILD(Improved Levenshtein Distance) 알고리즘이 적용된 간판 영상 문자 인식 및 후처리 시스템.
  2. 청구항 1에 있어서,
    상기 비교대상데이터베이스(16)(20)는 전국 전화번호부에 등재된 상호명으로 구성된 간판 영상 문자 인식 및 후처리 시스템.
  3. 삭제
  4. 청구항 1에 있어서,
    상기 교정연산프로세서(13a)는 상기 인식후보군을 형성함에 있어 상기 입력데이터의 문자열 길이와 상기 비교대상데이터베이스(16)(20)의 문자열 길이를 비교하여 ±2에 해당하는 길이 및 상기 입력데이터의 음절과 상기 비교대상데이터베이스(16)(20)의 음절을 비교하여 적어도 40%에 부합되는 음절의 문자열을 대상으로 하는 간판 영상 문자 인식 및 후처리 시스템.
  5. 삭제
  6. 청구항 1에 있어서,
    상기 입력데이터인식기(13)와 출력기(14) 간에는 인식된 상기 입력데이터의 정보를 사용자가 원하는 언어로 번역할 수 있는 번역기(15)가 더 구비된 간판 영상 문자 인식 및 후처리 시스템.
  7. 청구항 1, 청구항 2, 청구항 4, 청구항 6 중 어느 한 항에 있어서,
    상기 출력기(14)는 스피커 또는 디스플레이 화면으로 이루어진 간판 영상 문자 인식 및 후처리 시스템.
KR1020100132253A 2010-12-22 2010-12-22 간판 영상 문자 인식 및 후처리 시스템 KR101176963B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100132253A KR101176963B1 (ko) 2010-12-22 2010-12-22 간판 영상 문자 인식 및 후처리 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100132253A KR101176963B1 (ko) 2010-12-22 2010-12-22 간판 영상 문자 인식 및 후처리 시스템

Publications (2)

Publication Number Publication Date
KR20120070795A KR20120070795A (ko) 2012-07-02
KR101176963B1 true KR101176963B1 (ko) 2012-09-03

Family

ID=46705981

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100132253A KR101176963B1 (ko) 2010-12-22 2010-12-22 간판 영상 문자 인식 및 후처리 시스템

Country Status (1)

Country Link
KR (1) KR101176963B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230171769A (ko) 2022-06-14 2023-12-21 서강대학교산학협력단 신경망을 이용한 간판 인식 시스템 및 간판 인식 방법
KR20240045416A (ko) 2022-09-29 2024-04-08 이영태 간판 인식을 통한 상점 판별 시스템 및 이를 이용한 상점 판별 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101985403B1 (ko) * 2018-11-20 2019-06-03 주식회사 씨알랩 이미지를 이용한 다국어 정보 제공 장치 및 방법, 이를 수행하기 위한 기록매체
KR102455112B1 (ko) 2020-11-27 2022-10-17 주식회사 투블럭에이아이 3단계 언어 모델을 이용한 문서 인식 개선 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
임준식, 김수형, 이칠우, 이귀상, 양형정, 이명은. 사전기반 후처리를 이용한 모바일 폰 영상에서 와인라벨 문자 인식. 2010.5., 정보과학회논문지: 컴퓨팅의 실제 및 레터 제16권 제5호(제546면 내지 제550면)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230171769A (ko) 2022-06-14 2023-12-21 서강대학교산학협력단 신경망을 이용한 간판 인식 시스템 및 간판 인식 방법
KR20240045416A (ko) 2022-09-29 2024-04-08 이영태 간판 인식을 통한 상점 판별 시스템 및 이를 이용한 상점 판별 방법

Also Published As

Publication number Publication date
KR20120070795A (ko) 2012-07-02

Similar Documents

Publication Publication Date Title
US11170248B2 (en) Video capture in data capture scenario
US8750616B2 (en) Character image extracting apparatus and character image extracting method
US11080910B2 (en) Method and device for displaying explanation of reference numeral in patent drawing image using artificial intelligence technology based machine learning
US8160402B2 (en) Document image processing apparatus
US8208765B2 (en) Search and retrieval of documents indexed by optical character recognition
US10915788B2 (en) Optical character recognition using end-to-end deep learning
US8176054B2 (en) Retrieving electronic documents by converting them to synthetic text
US8468167B2 (en) Automatic data validation and correction
US20200302208A1 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
KR101468231B1 (ko) 라벨 검색 방법 및 장치
AU2010311067B2 (en) System and method for increasing the accuracy of optical character recognition (OCR)
KR20100007722A (ko) 카메라 기반 영상의 문자 인식 및 번역 방법
US11790675B2 (en) Recognition of handwritten text via neural networks
US20090030882A1 (en) Document image processing apparatus and document image processing method
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
KR101176963B1 (ko) 간판 영상 문자 인식 및 후처리 시스템
Saluja et al. Error detection and corrections in Indic OCR using LSTMs
CN115391625A (zh) 一种基于多粒度特征融合的跨模态检索方法和系统
US10217020B1 (en) Method and system for identifying multiple strings in an image based upon positions of model strings relative to one another
CN115661846A (zh) 数据处理方法、装置、电子设备和存储介质
KR102235506B1 (ko) 문자 인식 장치 및 방법
Hirayama et al. Development of template-free form recognition system
US11335108B2 (en) System and method to recognise characters from an image
Saluja Robust multilingual OCR: from Ancient Indic texts to modern Indian Street signs.
CN117009460A (zh) 词典笔的辅助信息快速搜集方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150729

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160722

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee