KR20080050272A - 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자인식 장치 및 방법 - Google Patents

화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자인식 장치 및 방법 Download PDF

Info

Publication number
KR20080050272A
KR20080050272A KR1020070081866A KR20070081866A KR20080050272A KR 20080050272 A KR20080050272 A KR 20080050272A KR 1020070081866 A KR1020070081866 A KR 1020070081866A KR 20070081866 A KR20070081866 A KR 20070081866A KR 20080050272 A KR20080050272 A KR 20080050272A
Authority
KR
South Korea
Prior art keywords
character
recognition
image
camera
document image
Prior art date
Application number
KR1020070081866A
Other languages
English (en)
Other versions
KR100874747B1 (ko
Inventor
김계경
안현상
이인호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20080050272A publication Critical patent/KR20080050272A/ko
Application granted granted Critical
Publication of KR100874747B1 publication Critical patent/KR100874747B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

본 발명은 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치 및 방법에 관한 것으로서, 카메라 문서 영상을 화소가 이동된 여러 장의 부-문서 영상(sub-document images)으로 나누어 입력하고, 각 문서 영상에 대해 영상 개선 알고리즘 및 이진화를 적용한 다음, 화소 이동 망 특징 등의 조합 문자 특징 추출기를 이용하여 문자의 특징을 추출한 다음, 가중치가 부여된 이종 인식기를 통해 인식하여 최종 인식 결과를 얻어냄으로써, 인식된 결과는 문서 편집, 데이터 베이스 구축 및 음성 등의 형태로 변환하여 사용될 수 있으므로 사용자의 요구에 대응하여 다양한 서비스를 제공할 수 있을 것이다.
카메라, 영상 개선 알고리즘, 국소 이진화, 조합 문자 특징 추출기, 이종 인식기

Description

화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING LETTER BY COMBINED RECOGNITION METHOD OF PIXEL-SHIFTED CAMERA DOCUMENT IMAGE}
본 발명은 영상 처리 기술 중 카메라를 이용하여 획득한 문서 영상을 인식하는 기술에 관한 것으로, 더욱 상세하게는 카메라를 이용하여 화소가 이동된 부-문서 영상들을 획득하고 영상 개선, 국소 이진화를 적용하여 개별 문자로 추출한 다음 화소 이동된 개별 문자의 특징을 추출하고 가중치가 부여된 이종 인식기를 이용하여 인식하고 결합하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치 및 방법에 관한 것이다.
본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호:2005-S-003-02, 과제명: 실사 수준의 디지털 영상 콘텐츠 제작 소프트웨어 개발].
카메라 문자 인식은 기존의 종이문서를 스캐너로 입력해서 인식한 것과는 달리 실세계에 존재하는 어떤 형태의 문자도 쉽게 획득할 수 있다는 장점이 있다. 즉, 카메라 문자 인식은 종이 문서를 스캐너로 입력하는 것 외에 카메라라는 입력 수단에 의해 아주 손쉽게 인식 대상 문자들을 획득하여 인식한 다음, 그 인식 결과를 활용할 수 있다. 카메라 문자 인식은 실내 환경 뿐만 아니라 실외 환경에 존재하는 문자들도 입력하여 인식할 수 있는데, 그 예로 관광지의 안내문이나 각종 자료에 대한 설명문, 기념비, 간판, 명함 등을 들 수가 있다. 이와 같이 카메라 문자 인식은 입력 대상 문자들이 기록되어 있는 매체에 상관없이 휴대형 카메라로 문자들을 손쉽게 획득하여 인식하고 그 인식 결과를 활용할 수 있어서 최근 활발히 연구되고 있는 문자 인식 분야이다. 이러한 카메라 문자 인식은 책 읽는 로봇이나 휴대폰 카메라 문자 인식 등에도 활용되고 있다.
이와 같이, 카메라 기반 문자 인식은 문자가 적힌 매체에 관계없이 실세계 문헌 정보를 카메라로 손쉽게 입력할 수 있는 장점이 있다. 이를 통해 카메라 문서 영상의 이용 목적에 따라, 획득한 카메라 문서 영상을 사용자의 컴퓨터에서 영상 처리한 다음 인식하여 문서 편집, 데이터베이스 구축 등을 위해 사용하거나, 휴대용 단말기에서 인식 대상 문자 영상을 서버로 직접 전송하고 인식된 결과를 다시 전송 받아서 외국어 번역, 음성 실시간 서비스 등 사용자 목적에 적합한 형태로 변환하여 활용할 수 있다. 최근 실세계 카메라 문자 인식은 상기한 바와 같은 휴대폰 카메라 문자 인식 및 책 읽는 로봇 등에 활용되어 카메라 문자 인식에 대한 사용자의 필요성이 점점 더 증가되고 있는 추세이다.
그러나, 카메라 문자 영상은 스캐너 문자 영상과는 달리 문자 영상을 입력하는 조건이 제한되지 않아 주변 조명 및 입력 카메라의 영향을 많이 받는다는 단점이 있어서 기존의 스캐너 기반 문자 인식에 비하여 인식하기 매우 어려운 것으로 알려져 있다. 이 같은 단점을 보완하기 위해 카메라 문자 인식을 위한 기술이 발표된 바 있다.
그 방법 가운데 첫 번째는, 카메라 문서 영상을 개선하기 위하여 영상 전처리하는 방법으로, 각종 필터를 이용하여 카메라 문서 영상을 개선한 다음, 전역 이진화 및 국소 이진화 방법을 이용하여 카메라 문서 영상을 이진화한 다음, 문자 인식하도록 한 것이다. 카메라 문서 영상 인식 방법의 대부분이 카메라 문서 영상을 개선하는 방법에 관한 것이다. 이 방법은 카메라를 이용하여 종이 문서를 데이터베이스화하는데 활용될 수 있다.
그 방법 가운데 두 번째는, 실 환경에 존재하는 문자를 카메라로 획득하여 인식하는 것에 관한 것으로, 카메라로 문서 영상을 획득하고 인식하고자 하는 문자영역을 사용자가 지정하여 인식하도록 한 것이다. 이 방법은 실 환경에 존재하는 거리간판에 씌어진 문자를 PDA용 카메라로 획득한 다음 인식하는데 활용하고 있다. 카메라로 획득한 영상의 배경에서 인식하고자 하는 문자 영역만 사용자가 직접 선택한 다음 서버로 전송하여 인식한 다음 인식 결과를 다시 사용자에게 전송해준다. 문자 인식 결과는 사용자가 필요로 하는 정보 검색이나 외국어로 번역하는 등 사용자의 편의를 제공해주는 목적으로 활용되고 있다.
상위 두 방법에서 주로 다루고 있는 것은 카메라 문자 영상에 대해 단순히 영상 개선 및 이진화 방법을 제시한 것으로서, 카메라 왜곡 및 주변 조명 영향으로 인해 발생되는 왜곡된 상황에 대한 카메라 문자 인식 방법은 제시되지 않고 있다. 이와 같이 대부분 카메라로 획득한 문서 영상 인식에 있어서 문제점으로 대두되고 있는 것은 카메라의 비네팅(vignetting) 현상 및 주변 조명의 영향을 최소화하여 문자 인식하는 것인데, 단순히 영상 개선 및 이진화 방법에 대한 개선만으로는 카메라 문자의 인식 성능을 보장할 수 없다. 또한, 실 환경에서 획득한 문자를 인식할 경우에는 더욱이 다양한 문자 형태를 인식할 수 있는 특징 추출 방법이나 인식 방법이 모색되어야 한다. 따라서, 주변 환경에 강인(왜곡 및 환경 영향 최소화)하게 카메라 문서 영상에서 문자 영역을 제대로 추출하여 인식하는 방법 및 카메라로 입력된 다양한 문자 영상에 무관하게 영상 특징이나 인식 방법을 이용하여 카메라 문자 인식이 수행되어야 한다.
이와 같이 카메라 문서 영상은 카메라 왜곡 및 주변의 조명 영향으로 인하여 블러링(blurring)되거나 잡음이 많이 발생하여 문자 분할 및 인식이 상당히 어려운 문제점을 해결하기 위해 영상 개선 알고리즘을 적용하거나 새로운 이진화 기법들이 많이 제안되어 있으나, 이러한 방법들을 이용하여 인식 대상 문자들을 추출했다하더라도 정형화된 개별 문자를 추출하기는 상당히 어렵다. 따라서 카메라 문서 인식을 위해 주로 연구되어온 영상 개선 알고리즘 적용 뿐만 아니라, 카메라라는 입력 수단으로 문서 영상을 획득하면서 발생한 변형 문자들을 제대로 인식할 수 있는 특징 추출 방법이나 인식 방법도 같이 모색되어야 할 필요가 있다.
따라서, 본 발명은 상기한 종래 기술의 문제점을 해결하기 위해 이루어진 것으로서, 본 발명의 목적은 카메라 문서 영상을 화소가 이동된 여러 장의 부-문서 영상(sub-document images)으로 나누어 입력하고, 각 문서 영상에 대해 영상 개선 알고리즘 및 이진화를 적용한 다음, 화소 이동 망 특징 등의 조합 문자 특징 추출기를 이용하여 문자의 특징을 추출한 다음, 가중치가 부여된 이종 인식기를 통해 인식하여 최종 인식 결과를 획득함으로써 문자 인식 능력을 향상시킬 수 있는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치 및 방법을 제공하는데 있다.
구체적으로, 카메라 문서 영상을 화소가 이동된 여러 장의 부-문서 영상으로 나누어 획득한 다음 각 부-문서 영상에 대해 영상 전처리를 통하여 영상 화질을 개선하고, 각 화소의 명암 분포도를 조사하여 국소 이진화 임계치를 구하여 이진화 문자 영상을 구한다. 여기서, 제안된 국소 이진화는 기존의 국소 이진화에 비해서 처리시간이 최대 10배 정도 빠르기 때문에 여러 장의 부-문서 영상들을 처리하는데 문제가 되지 않는다. 화소를 이동하여 부-문서 영상들을 입력하여 인식함으로써 흔히 카메라 문서 영상의 가장자리 영역에 인식 불가능한 문자 영역이 존재하여 인식하지 못하는 문자들이 생기는 문제점을 해결할 수 있다. 또한, 각 부-문서 영상에 대해 결합 및 분리 알고리즘을 적용하여 개별 문자를 추출한 다음 상하 좌우 화소 이동 망 특징을 추출하여 이종 인식기로 인식한다. 여기서, 이종 인식기는 각 인식 기의 단점을 상호 보완해주는 역할을 함으로써 보다 향상된 인식 성능을 보장할 수 있다. 그리고, 각 인식기에 가중치를 부여하여 곱한 인식 결과를 최종 인식 결과로 한다. 이를 통해, 본 발명은 기존의 저해상도 카메라 문서 영상 인식을 위해 집중적으로 연구되어온 영상 개선 알고리즘 적용 및 이진화 방법 개선 뿐만 아니라 카메라 문서 영상에서 흔히 인식이 불가능한 영역 제거 방법 및 다양한 형태의 카메라 문자를 인식하기 위한 문자 특징 추출 및 문자 인식 방법을 같이 제안함으로써 카메라 문자의 인식 성능을 향상시킬 수 있을 뿐만 아니라 안정적인 인식 성능을 보장하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치는, 입력되는 영상에 대해 화소가 이동된 다수의 부-문서 영상(sub-document images)으로 처리하여 출력하는 부-문서 영상처리부; 상기 부-문서 영상에 대해 영상 개선 알고리즘을 거친 영상을 국소 이진화하는 이진화부; 상기 이진화된 영상에 대해 개별 문자의 구조적인 특징정보 및 화소가 이동된 문자 영역에 대한 화소 이동 망 특징을 추출하는 문자처리부; 문자 유형의 분류 및 상기 개별 문자를 인식하는 이종 인식기를 결합하여 인식 결과를 출력시키는 인식처리부를 포함하여 이루어진 것을 특징으로 한다.
한편, 본 발명의 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법은, (a) 입력되는 영상에 대해 화소가 이동된 다수의 부-문서 영상(sub-document images)으로 처리하여 출력하는 단계; (b) 상기 부-문서 영상에 대해 영 상 개선 알고리즘을 적용하는 단계; (c) 상기 영상 개선 알고리즘을 거친 영상에 대해 이진화를 적용하여 이진문서 영상을 추출하는 단계; (d) 상기 이진화된 영상에 대해 개별 문자의 구조적인 특징정보 및 화소가 이동된 문자 영역에 대한 화소 이동 망 특징을 추출하는 단계; 및 (e) 문자 유형의 분류 및 상기 개별 문자를 인식하는 이종 인식기를 결합하여 인식 결과를 출력시키는 단계를 포함하여 이루어진 것을 특징으로 한다.
상술한 바와 같이, 본 발명은 카메라를 이용하여 화소 이동된 부-문서 영상을 획득하여 영상 개선 알고리즘을 적용하고 부-문서 영상에 대해 국소 이진화를 행한 다음 문자 추출, 문자 특징 추출 및 이종 인식기를 결합하여 문자 인식하는 방법을 제안하고 있다. 또한, 본 발명에서는 주변 조명 영향 및 카메라의 왜곡 현상을 줄이기 위하여 부-문서 영상 입력, 영상 개선 알고리즘 및 각 부-문서 영상에 대한 국소 이진화 방법을 적용하도록 하고 있다. 그리고, 결합 및 분리 알고리즘을 이용하여 개별 문자를 추출하여 화소 이동 망 특징을 추출하여 유형별로 문자를 분류하고 이종 인식기를 결합하여 인식하도록 하고 있다.
이와 같이 본 발명에 의한 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치 및 방법은, 화소 이동 부-문서 영상 입력, 화소 이동 망 특징 등의 개별 문자 특징을 추출하여 가중치를 부여한 이종 인식기를 결합하는 방법을 사용하여 인식하도록 함으로써 기존의 카메라 문자 영상이 주변 조명이나 카메라 렌즈의 영향으로 인하여 인식하기 어려운 문자 대상으로 여겨졌었던 문제점을 보완 하여 인식 성능을 향상시킬 수 있다.
최근 카메라 문자 인식은 책읽는 로봇과 같은 로봇 비젼에 활용되거나 휴대폰과 같은 모바일 기기에 카메라 기능 및 인식 기능을 내장시켜 정보 획득의 수단으로 활용되고 있는 상황에서, 현실 세계에서 보다 안정적인 카메라 문자 인식 성능을 보장하면서 그 인식 결과를 다른 응용 서비스와 결합할 경우에 사용자에게 편리함을 제공할 수 있을 것이다.
이하, 본 발명의 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치 및 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일실시예에 의한 화소 이동 문서 영상 조합 인식 방법을 이용한 문자 인식 장치의 제어회로블록도이다.
도 1을 참조하면, 본 발명의 화소 이동 문서 영상 조합 인식 방법을 이용한 문자 인식 장치는 크게, 부-문서 영상처리부(1), 이진화부(2), 문자추출부(3), 문자특징추출부(4), 인식기(5) 및 결합기(6)로 구성되어 있다. 여기서, 문자추출부(3)와 문자특징추출부(4)는 문자처리부로 정의될 수 있으며, 인식기(5)와 결합기(6)는 인식처리부로 정의될 수 있다. 또한, 본 발명의 화소 이동 문서 영상 조합 인식 방법을 이용한 문자 인식 장치는 카메라 자체에 내장될 수 있으며, 서버에 장착되어 네트워크를 통한 서비스를 카메라에서 받을 수도 있을 것이다.
부-문서 영상처리부(1)는, 카메라 문서 영상에서 불가능한 인식 영역을 없애기 위한 방안으로 문서 영상을 입력할 때 화소가 이동된 부-문서 영상(sub- document images)을 여러 장 출력되도록 하는 기능을 수행한다.
이진화부(2)는, 카메라 렌즈의 특성에 따른 왜곡 현상 및 포커스 문제가 발생하여 카메라 문서 영상의 특정 부분 특히, 문서의 가장자리 부분에 위치한 문자들의 경우 문자 분할이나 인식이 어려운 경우가 흔히 발생한다. 또한, 저해상도 카메라의 경우 문자 영상이 블러링되거나 이웃하는 문자와 겹쳐지는 경우가 나타나기도 한다. 따라서 화소 이동된 문서 영상에 대해 영상 개선 알고리즘을 적용하고 각 부-문서 영상의 화소 명암도 값을 조사하여 국소 이진화를 수행한다.
문자추출부(3)는, 이진화 문서 영상에 대해 개별 문자의 구조적인 특징정보로부터 개별 문자로 분할하는 기능을 수행한다. 여기서, 문자추출부(3)는 이진화 문서 영상에서 투영기법을 사용하여 단어를 추출하는 기능과, 단어영역에서 결합 및 분리 알고리즘을 적용하여 개별문자를 추출하는 기능을 포함한다.
문자특징추출부(4)는, 추출된 개별 문자에 대해서 특징을 추출하는데, 카메라 문자의 변형에도 무관한 문자 특징을 추출하기 위해 추출된 개별 문자에서 상,하,좌,우 각각에 대해 화소가 이동된 문자 영역에 대해 화소 이동 망 특징을 추출하는 기능과, 윤곽선, 체인코드, 거리 및 문자 영상의 가로 대 세로 비(ratio) 등의 구조적인 특징을 추출하는 기능을 포함한다.
인식기(5)는, 추출된 문자에 대해 인식을 수행하는데, 인식기의 부담을 줄이기 위하여 문자의 유형을 분류할 수 있는 MLP 유형분류기(51)와, 카메라 문자와 같이 형태 변형이 다양한 문자를 인식하기 위해 개별 문자에 대한 이종 인식기, 즉 HMM(Hidden Markov Model) 및 MLP(Multi-Layer Perceptron)(52)로 구성되어 있다.
결합기(6)는, 상기 이종 인식기로부터 출력되는 인식결과에 가중치를 부여하고 MLP 유형분류기로부터 출력되는 인식결과에 가중치를 부여하여 결합함으로써 최종 인식 결과를 도출하는 기능을 수행한다.
도 2는 본 발명의 일실시예에 의한 화소 이동 문서 영상 조합 인식 방법을 이용한 문자 인식 방법의 흐름도이다.
도 2를 참조하면, 인식 대상 문자(실내외 문서, 간판/명함, 안내문/설명문)에 대하여 카메라, 휴대폰 카메라, 웹 카메라 등을 이용하여 촬상을 수행한 영상을 본 발명의 화소 이동 문서 영상 조합 인식 방법을 이용한 문자 인식 장치에 입력시킴에 따라, 우측으로 화소 이동시킨 부-문서 영상을 획득한다(S1). 획득한 문자 영상에 대하여 문자부분이 제대로 추출되도록 하기 위한 영상 개선 알고리즘을 적용시킨다. 그리고 화소의 명암 분포도를 계산하여 부-문서 영상에 대한 국소 이진화를 행한다(S2). 결합 및 분리 알고리즘을 이용하여 단어 및 개별 문자를 추출한다(S3). 추출된 개별 문자에 대해 상,하,좌,우 화소 이동 메쉬 특징 및 구조적인 특징 벡터를 추출한다(S4). 추출된 개별 문자를 이종 인식기에서 인식한다(S5). 각 인식기로부터 얻은 인식 결과에 가중치를 부여한 다음 두 인식기의 결과를 곱하여 최종 인식 결과를 얻는다(S6). 이후, 사용자의 편의에 맞게 인식 결과와 응용소프트웨어를 결합하여 활용한다. 이하, 각 단계별로 구체적인 실시예를 상세히 설명한다.
실시예
먼저, 인식대상 카메라 문서 영상을 획득한다. 즉, 다양한 형태의 인식 대상 문서 획득을 위하여 카메라와 문서와의 거리를 다양하게 하여 카메라 문자 영상 샘플들을 얻는다. 또한, 다양한 문자 폰트가 기록된 문서 영상을 대상으로 샘플들을 입력하도록 한다. 시뮬레이션에 사용된 문자 영상은 제한되지 않은 조명 조건 환경에서 얻어진 영상들이다. 다양한 카메라 문자 영상에 대한 인식 성능을 실험하기 위하여 실내 외 환경에서 문자가 기록된 매체에 상관없이 인쇄체로 적힌 문자 영상을 획득하도록 한다.
S1: 스캐너로 입력한 문자 영상과는 달리 카메라 문자 영상은 주변 조명 영향으로 인하여 획득한 문자 영상의 가장 자리부분에 비네트(vignette) 현상 및 문자 영상이 흐려지는 블러링 현상이 발생한다. 이러한 요인들은 문자의 오분할 및 오인식을 유발하는 요인으로 작용하므로 문자부분을 제대로 추출하여 인식하는 방법이 요구된다. 따라서, 화소가 이동된 부-문서 영상을 카메라로 획득하여 오인식 문자 영역을 줄이도록 한다. 도 3은 카메라로 입력된 문서 영상 샘플들을 도시한 도면이다.
S2: 컬러 영상을 명도 영상으로 변환하기 위하여 다음 [수식 1]을 적용한다.
--- [수식 1]
자연색 컬러 영상을 256컬러 영상으로 변환한 다음 상기 [수식 1]을 이용하여 명도 레벨 영상으로 변환한다. 이때,
Figure 112007058868477-PAT00002
는 각각 0.11, 0.59 및 0.30으로 계산하였다.
또한, 각 부-문서 영상에 대한 국소 이진화를 위한 임계치를 계산하여 이진화를 행한다. 영상 개선 알고리즘을 적용한 입력 영상의 국소 영역에 대해서 부분적으로 문자 영상을 이진화하는 알고리즘을 적용하여 주변 조명 영향에 민감하지 않게 문자영역을 추출할 수 있도록 한다. 부-문서 영상에 대한 국소 이진화 결과는 도 4에 잘 도시되어 있다. 이진화 임계값을 구할 대상 국소 영역 r x r에서 명도 레벨이 가장 높은 화소값과 가장 낮은 화소값의 차이를 구한 다음 이 차 값의 t에 해당하는 값으로 이진화를 수행하기 위하여 다음의 [수식 2]로 계산한다.
Figure 112007058868477-PAT00003
--- [수식 2]
이때,
Figure 112007058868477-PAT00004
Figure 112007058868477-PAT00005
는 국소 영역 r x r에서 명도 레벨이 최대 및 최소 화소 값을 각각 나타낸다.
Figure 112007058868477-PAT00006
는 실험 결과 얻어진 값이다.
S3: 문자 분할을 위하여 수직 투영 및 여백 정보를 이용하여 단어를 추출한 다음, 결합 및 분리 알고리즘을 이용하여 개별 문자를 추출한다. 한글은 다른 문자들과 달리 모음과 자음이 결합하여 문자를 이루기 때문에 연결 화소에 대한 결합 및 분리 알고리즘을 적용하여 개별 문자를 추출하도록 한다. 문자열, 단어 및 개별 문자 추출 과정 및 결과가 도 5a 내지 5c에 잘 도시되어 있다.
S4: 인식 대상 문자의 구조적인 특징정보를 이용하여 개별 문자의 특징을 추출한다. 메쉬 특징, 거리정보 특징 및 윤곽선 정보를 이용하여 개별 문자에 대한 특징을 추출하도록 한다. 그 가운데 메쉬 특징 정보는 상,하,좌,우 화소 이동 메쉬 특징을 추출하도록 한다. 도 6에는 화소 이동 망 특징 추출에 대한 개념이 도시되 어 있다.
S5: 추출된 개별 문자의 유형을 분류한 다음 인식한다. 한글, 영어, 기호, 숫자가 혼용된 문자 인식을 위하여 한글에 대하여 여섯 가지 문자유형으로 분류하고 영어, 기호, 숫자를 비 한글 유형으로 분류하여 각 문자 유형별로 문자들을 인식하도록 한다. 본 실시예에서는 MLP를 이용한 유형 분류기 및 HMM과 MLP를 이용한 개별 문자 인식기를 구현한다.
S6: 카메라 문자 인식과 같이 인식하기 어려운 문자를 인식하기 위해서 이종 인식기를 결합하여 가중치를 부여한 다음, 곱하는 방식을 이용하여 문자를 인식하도록 한다. 도 7은 가중치가 부여된 이종 인식기 결합 인식 방법을 도시한 도면이다. 도 7에 도시된 바와 같이, 개별문자에 대해 다수의 HMM을 이용하여 인식을 수행한 결과를 조합한 인식결과1과 MLP를 이용하여 인식을 수행한 결과를 조합한 인식결과2에 각각 가중치를 부여하여 결합한다.
이후, 문자 인식 결과에 대해 사용자의 편의에 맞게 문서 편집, 데이터베이스 구축에 활용하거나, 외국어 변환, 음성 서비스 등의 응용소프트웨어와 결합하여 활용한다.
이와 같이, 본 발명에서는 카메라를 이용하여 화소 이동된 부-문서 영상을 획득한 다음, 영상 개선 알고리즘을 이용하여 영상 화질을 개선하고, 국소 이진화를 행하여 인식하지 못하는 문서 영역을 없애도록 하였다. 개별 문자를 추출하고 인식하는데 있어서 여러 가지 구조적인 문자 특징 정보를 추출하여 결합하도록 하 였으며, 특히 카메라 문자와 같이 다양항 형태를 가진 문자 인식을 위하여 화소 이동된 망 특징을 추출하여 적용하도록 하였다. 또한, 이종 인식기를 설계하여 각 부-문서 영상의 인식결과를 얻고, 이종 인식기의 상호 보완 기능의 장점을 활용하여 인식 결과에 가중치를 부여하고, 두 인식 결과를 서로 곱하여 최종 인식 결과를 얻도록 하였다.
이와 같이, 카메라 문자 인식은 기존의 스캐너 문자 인식과는 달리 주변 조명 및 카메라 렌즈의 영향으로 인하여 문자 인식하기가 매우 어렵기 때문에 본 발명에서는 화소 이동된 부-문서 영상을 여러 장 입력하여 영상 개선하고 국소 이진화하도록 하였다. 개별 문자의 특징을 추출할 때도 카메라 문자의 형태 변형을 고려한 특징을 추출하도록 하였으며, 이종 인식기를 결합하여 인식하도록 함으로써 카메라 문자 인식의 인식 성능을 향상시킬 수 있도록 하였다.
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다.
도 1은 본 발명의 일실시예에 의한 화소 이동 문서 영상 조합 인식 방법을 이용한 문자 인식 장치의 제어회로블록도,
도 2는 본 발명의 일실시예에 의한 화소 이동 문서 영상 조합 인식 방법을 이용한 문자 인식 방법의 흐름도,
도 3은 카메라로 입력된 문서 영상 샘플들을 도시한 도면,
도 4는 부-문서 영상에 대한 국소 이진화 결과를 도시한 도면,
도 5a 내지 5c는 문자열, 단어 및 개별 문자 추출 과정 및 결과를 도시한 도면,
도 6은 화소 이동 망 특징 추출을 도시한 도면,
도 7은 가중치가 부여된 이종 인식기 결합 인식 방법을 도시한 도면이다.
<도면의 주요 부분에 대한 부호의 설명>
1 : 부-문서 영상처리부 2 : 이진화부
3 : 문자추출부 4 : 문자특징추출부
5 : 인식기 51 : MLP 유형분류기
52 : HMM(Hidden Markov Model) 및 MLP(Multi-Layer Perceptron)
6 : 결합기

Claims (12)

  1. 입력되는 영상에 대해 화소가 이동된 다수의 부-문서 영상(sub-document images)으로 처리하여 출력하는 부-문서 영상처리부;
    상기 부-문서 영상에 대해 영상 개선 알고리즘을 거친 영상을 국소 이진화하는 이진화부;
    상기 이진화된 영상에 대해 개별 문자의 구조적인 특징정보 및 화소가 이동된 문자 영역에 대한 화소 이동 망 특징을 추출하는 문자처리부;
    문자 유형의 분류 및 상기 개별 문자를 인식하는 이종 인식기를 결합하여 인식 결과를 출력시키는 인식처리부
    를 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치.
  2. 제1항에 있어서, 상기 문자처리부는,
    상기 이진화된 영상에 대해 개별 문자의 구조적인 특징정보로부터 개별 문자로 분할하여 추출하는 문자추출부; 및
    상기 추출된 개별 문자에 대해 상,하,좌,우 방향으로 화소가 이동된 문자 영역에 대해 화소 이동 망 특징을 추출함과 아울러 윤곽선, 체인코드, 거리 및 문자 영상의 가로 대 세로 비(ratio)를 포함한 구조적인 특징을 추출하는 문자특징추출부
    를 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치.
  3. 제2항에 있어서, 상기 문자추출부는,
    상기 이진화된 영상에서 투영기법을 사용하여 단어를 추출하고, 상기 단어에 대해 결합 및 분리 알고리즘을 적용하여 개별 문자를 추출하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치.
  4. 제1항 내지 제3항 중의 어느 한 항에 있어서, 상기 인식처리부는,
    한글, 영어, 기호 및 숫자를 포함하는 문자의 유형을 분류하는 MLP 유형분류기;
    상기 개별 문자에 대해 이미 학습된 문자에 대응하여 문자 인식을 수행하는 이종 인식기; 및
    상기 이종 인식기로부터 출력되는 인식결과에 가중치를 부여하고 상기 MLP 유형분류기로부터 출력되는 인식결과에 가중치를 부여하여 결합함으로써 최종 인식 결과를 도출하는 결합기
    를 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치.
  5. 제4항에 있어서, 상기 이종 인식기는 다수의 HMM(Hidden Markov Model) 및 MLP(Multi-Layer Perceptron)를 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 장치.
  6. (a) 입력되는 영상에 대해 화소가 이동된 다수의 부-문서 영상(sub-document images)으로 처리하여 출력하는 단계;
    (b) 상기 부-문서 영상에 대해 영상 개선 알고리즘을 적용하는 단계;
    (c) 상기 영상 개선 알고리즘을 거친 영상에 대해 이진화를 적용하여 이진문서 영상을 추출하는 단계;
    (d) 상기 이진화된 영상에 대해 개별 문자의 구조적인 특징정보 및 화소가 이동된 문자 영역에 대한 화소 이동 망 특징을 추출하는 단계; 및
    (e) 문자 유형의 분류 및 상기 개별 문자를 인식하는 이종 인식기를 결합하여 인식 결과를 출력시키는 단계
    를 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법.
  7. 제6항에 있어서, 상기 (b) 단계의 영상 개선 알고리즘은 배경으로부터 문자를 강조하여 문자 부분만을 추출하는 명도레벨 정규화 방법인 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법.
  8. 제6항에 있어서, 상기 (c) 단계의 이진화는 상기 부-문서 영상에 대해 화소의 명암 분포도를 조사하여 이진화 임계치를 계산하여 국소 이진화하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법.
  9. 제6항에 있어서, 상기 (c) 단계는 이진화 결과 나타나는 문자 이외의 표 및 그림을 포함하는 연결화소의 크기를 분석하여 제거하는 잡음 제거 단계를 더 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법.
  10. 제6항 내지 제9항 중의 어느 한 항에 있어서, 상기 (d) 단계의 화소가 이동된 문자 영역에 대한 화소 이동 망 특징을 추출하는 단계는,
    (d-1) 상기 이진화된 영상에 대해 개별 문자의 구조적인 특징정보로부터 개별 문자로 분할하여 추출하는 단계; 및
    (d-2) 상기 추출된 개별 문자에 대해 상,하,좌,우 방향으로 화소가 이동된 문자 영역에 대해 화소 이동 망 특징을 추출함과 아울러 윤곽선, 체인코드, 거리 및 문자 영상의 가로 대 세로 비(ratio)를 포함한 구조적인 특징을 추출하는 단계
    를 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법.
  11. 제10항에 있어서, 상기 (d-1) 단계의 개별 문자로 분할하여 추출하는 단계는 상기 이진화된 영상에서 투영기법을 사용하여 단어를 추출하고, 상기 단어에 대해 결합 및 분리 알고리즘을 적용하여 개별 문자를 추출하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법.
  12. 제11항에 있어서, 상기 문자 유형의 분류 및 상기 개별 문자를 인식하는 이종 인식기를 결합하여 인식 결과를 출력시키는 단계는,
    (e-1) 한글, 영어, 기호 및 숫자를 포함하는 문자의 유형을 MLP(Multi-Layer Perceptron) 유형분류기에서 분류하는 단계;
    (e-2) 상기 개별 문자에 대해 이미 학습된 문자에 대응하는 이종 인식기를 이용하여 문자 인식을 수행하는 단계; 및
    (e-3) 상기 이종 인식기로부터 출력되는 인식결과에 가중치를 부여하고, 상기 MLP 유형분류기로부터 출력되는 인식결과에 가중치를 부여하여 결합함으로써 최종 인식 결과를 도출하는 단계
    를 포함하는 것을 특징으로 하는 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자 인식 방법.
KR1020070081866A 2006-12-02 2007-08-14 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자인식 장치 및 방법 KR100874747B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20060121094 2006-12-02
KR1020060121094 2006-12-02

Publications (2)

Publication Number Publication Date
KR20080050272A true KR20080050272A (ko) 2008-06-05
KR100874747B1 KR100874747B1 (ko) 2008-12-19

Family

ID=39805765

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070081866A KR100874747B1 (ko) 2006-12-02 2007-08-14 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100874747B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101160968B1 (ko) * 2011-03-15 2012-06-29 한국과학기술원 색상 정보 및 외곽선 정보를 이용한 문자열 인식 시스템 및 그 방법
DE102012102797A1 (de) 2012-03-30 2013-10-02 Beyo Gmbh Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf einem Mobilfunkgerät
KR101390045B1 (ko) * 2008-12-24 2014-04-30 에릭슨엘지엔터프라이즈 주식회사 통화 장치 및 그 제어 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316912A (ja) 2004-04-30 2005-11-10 Global Process:Kk カメラ付携帯情報端末を用いた文字認識方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101390045B1 (ko) * 2008-12-24 2014-04-30 에릭슨엘지엔터프라이즈 주식회사 통화 장치 및 그 제어 장치
KR101160968B1 (ko) * 2011-03-15 2012-06-29 한국과학기술원 색상 정보 및 외곽선 정보를 이용한 문자열 인식 시스템 및 그 방법
DE102012102797A1 (de) 2012-03-30 2013-10-02 Beyo Gmbh Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf einem Mobilfunkgerät
DE102012102797B4 (de) * 2012-03-30 2017-08-10 Beyo Gmbh Kamerabasiertes Mobilfunkgerät zur Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf dem kamerabasierten Mobilfunkgerät

Also Published As

Publication number Publication date
KR100874747B1 (ko) 2008-12-19

Similar Documents

Publication Publication Date Title
Ryan et al. An examination of character recognition on ID card using template matching approach
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
US8965126B2 (en) Character recognition device, character recognition method, character recognition system, and character recognition program
US8175380B2 (en) Apparatus and method for improving text recognition capability
CN110889402A (zh) 一种基于深度学习的营业执照内容识别方法及系统
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
KR101606469B1 (ko) 이미지 분석방법, 특히 이동 단말기용 이미지 분석방법
Demilew et al. Ancient Geez script recognition using deep learning
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
Harizi et al. Convolutional neural network with joint stepwise character/word modeling based system for scene text recognition
CN110569839A (zh) 一种基于ctpn和crnn的银行卡号识别方法
KR100874747B1 (ko) 화소 이동 문서 영상 조합 인식 방법을 이용한 카메라 문자인식 장치 및 방법
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
KR100667156B1 (ko) 휴대형 카메라로 획득한 문자영상의 문자영역선택을 통한문자인식 장치 및 그 방법
Natei et al. Extracting text from image document and displaying its related information
Peters et al. Embedded reading device for blind people: a user-centered design
Lei et al. Noise-robust wagon text extraction based on defect-restore generative adversarial network
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
Efimova et al. Synthetic dataset generation for text recognition with generative adversarial networks
Badla Improving the efficiency of Tesseract OCR Engine
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques
CN110889401A (zh) 一种基于opencv库的文本版面识别方法
KR102064974B1 (ko) 블럽 기반의 문자 인식 방법 및 이를 위한 장치
Chandrasekaran American sign language recognition and translation using deep learning and computer vision

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 19