KR101473713B1 - 문자 인식 장치 및 방법 - Google Patents

문자 인식 장치 및 방법 Download PDF

Info

Publication number
KR101473713B1
KR101473713B1 KR1020100096847A KR20100096847A KR101473713B1 KR 101473713 B1 KR101473713 B1 KR 101473713B1 KR 1020100096847 A KR1020100096847 A KR 1020100096847A KR 20100096847 A KR20100096847 A KR 20100096847A KR 101473713 B1 KR101473713 B1 KR 101473713B1
Authority
KR
South Korea
Prior art keywords
image
character
background color
background
original
Prior art date
Application number
KR1020100096847A
Other languages
English (en)
Other versions
KR20120035360A (ko
Inventor
김희수
정은수
이은복
Original Assignee
에스케이플래닛 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이플래닛 주식회사 filed Critical 에스케이플래닛 주식회사
Priority to KR1020100096847A priority Critical patent/KR101473713B1/ko
Publication of KR20120035360A publication Critical patent/KR20120035360A/ko
Application granted granted Critical
Publication of KR101473713B1 publication Critical patent/KR101473713B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

본 발명은 사용자 단말기에서의 문자 인식 기술에 관한 것으로, 사용자 단말기를 통해 촬영된 이미지에서 문자 인식을 수행하는 경우 문자 이미지 영역에 대한 이진화 및 라인 분리를 수행한 후 이 정보를 이용하여 원래 이미지의 문자 영역에 대해 배경색을 추정하고, 추정된 배경색과 같은 경계선을 추가하여 확장한 후 문자 인식을 수행하는 것을 특징으로 한다. 본 발명에 의하면, 문자 인식에 있어 사용자 단말기의 작은 폰트 크기로 인한 문제를 이미지의 확대를 통해 해결할 수 있으며, 이미지의 확대 전에 이미지의 배경색을 추정한 후, 추정된 배경색으로 경계선을 추가하여 이미지 확대 과정에서 있을 수 있는 보간 에러를 피할 수 있으며, 결과적으로 사용자 단말기에서의 문자 인식률을 높일 수 있다.

Description

문자 인식 장치 및 방법{APPARATUS FOR RECOGNIZING CHARACTER AND METHOD THEREOF}
본 발명은 사용자 단말기에서의 문자 인식 기술에 관한 것으로서, 특히 사용자 단말기를 통해 촬영된 이미지에서 문자 인식을 수행하는 경우 문자 이미지 영역에 대한 이진화 및 라인 분리를 수행한 후 이 정보를 이용하여 원래 이미지의 문자 영역에 대해 배경색을 추정하고, 추정된 배경색과 같은 경계선을 추가하여 확장 한 후 문자 인식을 수행하는데 적합한 문자 인식 장치 및 방법에 관한 것이다.
문자 인식을 위한 일반적인 방법은 광학 문자인식(OCR: Optical Character Recognition) 방식이 주를 이루었다. 광학 문자인식 방식의 경우, 스캐너와 같은 광학 장치를 통해 인식할 입력 영상에 대한 이미지 정보를 얻는 것이 일반적이다.
대부분의 스캐너가 300dpi(dot per inch) 이상의 해상도를 제공하기 때문에 인식 대상이 되는 한 문자에 해당하는 이미지는 1/10 인치 정도의 작은 문자라도 이미지 크기는 30x30 정도가 될 수 있으므로, 문자 인식 시 크기에 따른 문자 인식 에러율은 현저하게 낮았다.
그러나 최근 모바일 기기의 사용이 늘어나면서 모바일 단말기의 테스트 자동화와 같은 분야에서 모바일 단말기 내의 화면상에 출력된 이미지로부터 문자 인식을 시도하는 경우가 증가하였다.
또한, 사용자가 모바일 기기를 이용하여 실생활에 명함 촬영을 통한 문자 인식, 증강현실을 이용하여 도서 주문을 위한 책에 기재된 문자 인식 등과 같이 다양한 분야에서 문자 인식 수요가 폭넓게 증가하고 있다.
이러한 경우 한 문자에 해당하는 이미지의 크기가 스캐너를 이용한 광학 문자 인식의 경우보다 현저히 작아져 문자 인식을 위해 기존에 널리 사용하는 알고리즘 및 기법의 적용이 어렵게 되거나 성능이 제대로 나오지 않게 되는 경우가 발생하고 있다.
상기한 바와 같이 동작하는 종래 기술에 의한 사용자 단말기에서의 문자 인식 방식에 있어서 전형적인 방법은 획득한 이미지에 대한 이진화를 수행한 후, 문자 분리를 통해 문자 인식을 수행하고 있다.
그러나 문자별 인식 단계에서 한 문자의 이미지 크기가 작을 때는 문자의 이진화로 인한 정보의 손실로 인해 기존의 통계적인 인식 알고리즘이나 구조적인 인식 알고리즘이 정확한 결과를 주지 못하는 경우가 많이 발생하게 된다.
이러한 문자 인식률이 낮아지는 주요한 이유 중의 하나는, 원본 이미지가 대개 컬러 영상의 경우로 문자 부분은 흑백이 아닌 anti-aliasing 알고리즘을 이용하여 여러 색으로 표시되는데 문자 이진화를 통해 이들 정보가 흑백의 이진 정보로 줄어들면서 인식 단계로 전달되는 정보가 상당 부분 손실 된다는 사실에 기인한다.
문자 이미지가 클 때에는 이진화에 의한 정보손실이 많은 영향을 주지는 않는다. 그러나 문자 이미지의 크기가 작을 때는 한 픽셀의 차이에도 크게 영향을 받기 때문에 이러한 정보의 손실은 인식 성능에 큰 영향을 끼치게 된다는 문제점이 있었다.
이에 본 발명의 실시예는, 사용자 단말기를 통해 촬영된 이미지에서 문자 인식을 수행하는 경우 문자 이미지 영역에 대한 이진화 및 라인 분리를 수행한 후 이 정보를 이용하여 원래 이미지의 문자 영역에 대해 배경색을 추정하고, 추정된 배경색과 같은 경계선을 추가하여 확장한 후 문자 인식을 수행할 수 있는 문자 인식 장치 및 방법을 제공한다.
또한, 본 발명의 실시예는, 사용자 단말기에 저장된 원본 이미지에서 분리된 문자 이미지를 경계 에러 없이 확대 후 확대된 이미지를 이용하여 문자 인식을 수행하는 것으로서, 원본 문자 이미지 영역 추출 후 배경색을 추정하는 알고리즘을 통해 배경색을 추정하고, 해당 배경색을 가지는 픽셀 라인을 이미지의 좌우상하에 추가한 후 이미지 확대 알고리즘을 적용하여 문자 인식을 수행할 수 있는 문자 인식 장치 및 방법을 제공한다.
본 발명의 일 실시예 장치는, 사용자 단말기에 저장된 원본 이미지에 대한 이진화 및 라인 분리를 통해 문자 분리 영역 정보를 추출하는 이진화 분리부와, 상기 문자 분리 영역 정보를 이용하여 상기 원본 이미지에서 원본 문자 이미지를 추출하는 원본 문자 추출부와, 이진화 정보를 이용하여 상기 원본 이미지에서 배경색을 추출하는 배경색 추정부와, 추출한 상기 배경색으로 상기 원본 문자 이미지에 배경 라인을 추가하는 배경색 경계 추가부와, 상기 배경 라인이 추가된 원본 문자 이미지를 기 설정된 크기로 확장하는 이미지 확대부를 포함한다.
그리고 상기 이진화 분리부는, 상기 원본 이미지에 대한 이진화를 수행하는 이진화부와, 상기 이진화된 이미지에서 라인 분리를 수행하는 라인 분리부와, 상기 라인 분리된 이미지에서 문자 영역에 대한 분리를 수행하는 문자 분리부를 포함한다.
그리고 상기 배경색 추정부는, 이진화 정보를 이용하여 배경 부분과 문자 부분을 나타내는 배경 플래그 데이터를 생성하고, 상기 배경 플래그 데이터를 토대로 한 배경색 추정 알고리즘으로 배경색을 추정하는 것을 특징으로 한다.
그리고 상기 배경색 추정 알고리즘은, 가장 빈번한 컬러, 가장 가까운 배경 컬러, RGB 평균, 평균 배경 컬러 알고리즘 중 적어도 하나인 것을 특징으로 한다.
그리고 상기 배경색 경계 추가부는, 상기 원본 문자 이미지의 상하좌우에 상기 배경색 픽셀을 각각 하나씩 추가하는 것을 특징으로 한다.
그리고 상기 이미지 확대부는, 큐빅 보간 알고리즘을 이용하여 확대하는 것을 특징으로 한다.
본 발명의 일 실시예 방법은, 사용자 단말기에 저장된 원본 이미지에 대한 이진화 및 라인 분리를 통해 문자 분리 영역 정보를 추출하는 과정과, 상기 문자 분리 영역 정보를 이용하여 상기 원본 이미지에서 원본 문자 이미지를 추출하는 과정과, 이진화 정보를 이용하여 상기 원본 이미지에서 배경색을 추출하는 과정과, 추출한 상기 배경색으로 상기 원본 문자 이미지에 배경 라인을 추가하는 과정과, 상기 배경 라인이 추가된 원본 문자 이미지를 기 설정된 크기로 확장하는 과정을 포함한다.
그리고 상기 배경색을 추출하는 과정은, 이진화 정보를 이용하여 배경 부분과 문자 부분을 나타내는 배경 플래그 데이터를 생성하는 과정과, 상기 배경 플래그 데이터를 토대로 한 배경색 추정 알고리즘으로 배경색을 추정하는 과정을 포함하는 것을 특징으로 한다.
그리고 상기 배경색 추정 알고리즘은, 가장 빈번한 컬러, 가장 가까운 배경 컬러, RGB 평균, 평균 배경 컬러 알고리즘 중 적어도 하나인 것을 특징으로 한다.
그리고 상기 배경 라인을 추가하는 과정은, 상기 원본 문자 이미지의 상하좌우에 상기 배경색 픽셀을 각각 하나씩 추가하는 것을 특징으로 한다.
그리고 상기 기 설정된 크기로 확장하는 과정은, 큐빅 보간 알고리즘을 이용하여 확대하는 것을 특징으로 한다.
본 발명에 있어서, 개시되는 발명 중 대표적인 것에 의하여 얻어지는 효과를 간단히 설명하면 다음과 같다.
본 발명은, 문자 인식에 있어 사용자 단말기의 작은 폰트 크기로 인한 문제를 이미지의 확대를 통해 해결할 수 있다.
또한 이미지의 확대 전에 이미지의 배경색을 추정하여 경계선을 이미지의 왼쪽, 오른쪽, 위쪽, 아래쪽에 추가하여 이미지 확대 과정에서 있을 수 있는 보간 에러를 피할 수 있도록 함으로써, 사용자 단말기에서의 문자 인식률을 높일 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따라 문자 인식을 수행하는 사용자 단말기의 구조를 도시한 블록도,
도 2는 본 발명의 실시예에 따른 문자 인식부의 구조를 도시한 블록도,
도 3은 본 발명의 실시예에 따른 원본 이미지 처리 과정을 도시한 도면,
도 4는 본 발명의 실시예에 따른 문자 인식부의 동작 절차를 도시한 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 발명의 실시예는 사용자 단말기를 통해 촬영된 이미지에서 문자 인식을 수행하는 경우 문자 이미지 영역에 대한 이진화 및 라인 분리를 수행한 후 이 정보를 이용하여 원래 이미지의 문자 영역에 대해 배경색을 추정하고, 추정된 배경색과 같은 경계선을 추가하여 확장 한 후 문자 인식을 수행하는 것이다.
도 1은 본 발명의 실시예에 따라 문자 인식을 수행하는 사용자 단말기의 구조를 도시한 블록도이다.
도 1을 참조하면, 문자 인식을 수행하는 사용자 단말기(100)는 카메라부(102), 문자 인식부(104), 제어부(106), 디스플레이부(108), 메모리부(110), 입력부(112)를 포함할 수 있으며, 이러한 사용자 단말기(100)는 이동통신 단말기, 스마트폰, PMP, PDA, 노트북 등과 같이 사용자가 휴대할 수 있는 컴퓨팅 장치를 모두 포함할 수 있다.
카메라부(102)는 제어부(106)의 제어하에 카메라 센서를 통하여 촬상된 정보를 디지털화하여 이미지를 생성하게 되며, 촬영된 이미지는 제어부(106)를 통해 메모리부(110)로 전달될 수 있다. 문자 인식부(104)는 촬영된 이미지에서 문자를 인식하고자 하는 경우, 제어부(106)의 제어하에 카메라부(102)로부터 인식하고자 하는 문자가 포함된 이미지를 전달받아 전달받은 이미지를 이진화한 후 라인 분리를 통해 문자별 인식을 수행할 수 있다. 문자 인식부(104)에 대해서는 도 2에서 구체적으로 설명하도록 한다.
제어부(106)는 사용자 단말기(100) 내의 각 기능 블록들을 제어하며, 사용자의 명령에 따라 카메라부(102)로 촬영 명령을 전달하고, 문자 인식부(104)로 카메라부(102)로부터 전달된 이미지에 대한 문자 인식 명령을 전달할 수 있다. 디스플레이부(108)는 카메라부(102)로부터 촬영된 이미지, 문자 인식부(104)를 통해 문자가 인식되는 처리 과정 등을 제어부(106)로부터 전달받은 경우, 이를 화면상에 디스플레이할 수 있다.
메모리부(110)는 사용자 단말기(100)를 운용하는 운용프로그램을 저장하고 있으며, 카메라부(102) 및 문자 인식부(104)를 구동하는 응용프로그램을 저장할 수 있다. 이에 제어부(106)의 요청에 따라 운용프로그램 및 응용프로그램을 제어부(106)로 전달할 수 있다. 그리고 메모리부(110)는 제어부(106)로부터 전달된 카메라 촬영 이미지와, 문자 인식 정보 등을 저장할 수 있다.
입력부(112)는 키패드 또는 터치스크린 방식으로 사용자로부터 신호를 사용자 명령으로서 제어부(106)로 전달할 수 있다.
도 2는 본 발명의 실시예에 따른 문자 인식부의 구조를 도시한 블록도이다.
도 2를 참조하면, 문자 인식부(104)는 이진화부(200), 라인 분리부(202), 문자 분리부(204), 원본 문자 추출부(206), 배경색 추정부(208), 배경색 경계 추가부(210), 이미지 확대부(212), 문자별 인식부(214) 등을 포함할 수 있다.
문자 인식부(104)에서는 카메라부(102)로부터 전달된 원본 이미지를 이진화부(200)와 원본 문자 추출부(206)로 전달할 수 있다. 이에 이진화부(200)는 카메라부(102)로부터 전달된 원본 이미지에 대한 이진화를 수행할 수 있으며, 이진화 정보는 라인 분리부(202) 및 배경색 추정부(208)로 전달할 수 있다.
그리고 라인 분리부(202)에서는 이진화된 이미지에서 각각의 라인을 분리하고, 문자 분리부(204)에서는 각 라인이 분리된 상태에서 문자 영역에 대한 분리를 수행하여 문자 분리 영역 정보를 추출할 수 있다.
한편, 이진화부(200), 라인 분리부(202) 및 문자 분리부(204)는 하나로 통합하여 이진화 분리부로 구성될 수 있다.
원본 문자 추출부(206)는 문자 분리부(204)로부터 문자 분리 영역의 정보를 이용하여 카메라부(102)로부터 전달된 원본 이미지에서 문자 분리 영역과 같은 영역의 원본 문자 이미지를 추출할 수 있다.
그리고 배경색 추정부(208)에서는 이진화 정보를 이용하여 원본 이미지에서 배경색을 추정하는 것으로서, 이진화 정보를 이용하여 이미지의 픽셀에서 배경 부분과 문자 부분을 나타낼 수 있는 배경 플래그 데이터를 만드는 것이다.
이는 원본 이미지와 같은 컬러 영상에서 문자 이미지의 출력은 이진 영상이 아닌 안티앨리어싱(anti-aliasing) 알고리즘을 통해 여러 색상으로 표시되기 때문에 이진화된 영상에서 0 값을 가지는 픽셀이 반드시 원본 이미지에서의 배경 부분을 나타내지는 않기 때문이다. 마찬가지로 이진화 영상에서의 1이 반드시 원본 이미지에서의 문자 부분을 나타내는 것도 아니다.
따라서 실제 문자 이미지내의 배경을 추정하기 위해서는 이진화 영상에서의 0인 영역 중에서도 픽셀 값이 1인 영역과의 거리가 일정한 상수 값 이내에 들어가는 픽셀 부분은 배제해야 한다. 이러한 과정을 통해 문자 이미지에 대해 배경으로 추정되는 부분은 값을 1로 하고, 아닌 부분은 값을 0 로 하는 배경 플래그 데이터를 생성할 수 있다.
즉, 플래그 데이터[x,y]의 값이 1이면 원본 이미지[x,y]의 픽셀은 배경으로 추정할 수 있으며, 이는 하기 (표 1)과 같이 나타낼 수 있다.
이진화 이미지에서 biamge[x,y] = 0 이면, flag[x,y] = 0
image[x,y] = 1인 픽셀과 거리가 d인 flag[x,y] = 1
여기서, x = 0..이미지.Width - 1, y = 0..이미지.Height - 1)
그리고 배경색 추정부(208)에서는 생성한 배경 데이터 플래그 데이터를 이용하여 원본 이미지에서 배경 색을 추정할 수 있다. 이는 배경 플래그 데이터의 값이 0인 배경으로 지정된 부분을 추출한다 하더라도 실제 이미지에서는 문자의 배경 부분이 단일 색상이 아닌 경우가 많기 때문에 실제 배경색을 어떤 한 픽셀 값으로 지정하기는 어렵다.
이에 배경 데이터 플래그와 원본 부분의 픽셀 정보를 이용하여 다음과 같은 알고리즘 중 적어도 하나를 사용하여 배경 색을 추정할 수 있다.
1) 가장 빈번한 컬러(Most Frequent Color)- 배경색을 구하고자 하는 픽셀을 둘러싼 일정한 크기의 영역을 구하고, 해당 영역에서 배경 플래그 데이터가 1인 픽셀들의 원본 픽셀에 가장 많이 나타나는 컬러를 배경색으로 설정하는 방식이다.
2) 가장 가까운 배경 컬러(Nearest Background Color)- 배경 색을 추정하고자 하는 픽셀과 가장 가까운 배경 플래그가 1인 픽셀의 원본 이미지 컬러를 배경으로 한다. 이때 가장 가까운 픽셀이 여러 개 일 때는 해당 픽셀들에 대한 평균 값을 사용한다.
3) RGB 평균(RGB Average)- 구하고자 하는 픽셀을 둘러싼 일정한 크기의 영역을 구하고, 해당 영역에서 배경 플래그 데이터가 1인 픽셀에 해당하는 원본 이미지 픽셀들의 RGB 성분들의 평균 값 (R', G', B')를 구한다. 그리고 구한 최종 평균 R', G' B'의 RGB 색상을 배경색으로 추정한다.
4) 평균 배경 컬러(Average Background Color)- 구하고자 하는 픽셀을 둘러싼 일정한 크기의 영역을 구하고, 해당 영역에서 배경 플래그 데이터가 1인 픽셀들의 RGB 값의 평균을 구하여 이를 배경색으로 추정한다.
그리고 배경색 경계 추가부(210)에서는 추정된 배경색을 이용하여 원본 문자 추출부(206)를 통해 추출한 원본 문자 이미지에 배경색의 이미지 라인을 추가하여 확장해주는 것이다. 즉, 추출한 문자 이미지가 M x N의 이미지라면 그 이미지의 왼쪽, 오른쪽, 위, 아래에 추정한 배경색을 가지는 이미지 라인(예컨대, 픽셀) 한 줄씩을 추가한 (M+2) x (N+2)의 이미지를 만드는 것이다. 이때 이미지의 각 경계(side)에 추가되는 줄의 개수는 추후 수행될 수 있는 이미지 확대 알고리즘과 관련이 있다. 일반적인 선형 보간(linear interpolation)을 사용하여 이미지를 확대하는 경우라면 경계선의 추가가 필요 없을 것이다. 그러나 이 경우 확대된 이미지의 품질이 떨어지는 문제가 발생할 수 있다.
따라서 선형 보간 대신 큐빅 보간(qubic interpolation) 방식을 수행할 수 있다. 큐빅 보간의 경우는 경계선의 추가가 없으면 큐빅 보간의 특성상 경계면에서 이상 현상이 발생할 수 있으므로, 이미지를 배경색으로 미리 확대하면 큐빅 보간의 영향을 미리 받지 않을 수 있다.
이미지 확대부(212)는 배경색 경계 추가부(210)를 통해 수행한 경계 확장 이미지를 원래의 폭과 너비의 비율을 유지하면서 일정한 크기로 확장시키는 것이다. 이때 이미지의 확장(upscale) 알고리즘으로는 여러 가지 방법을 사용할 수 있으며, 예컨대, 큐빅 보간 알고리즘을 사용할 수 있다. 이와 같이 생성된 확장 이미지는 원본 이미지를 그대로 확장된 것이기 때문에 원본 이미지의 문자 정보를 거의 모두 가지고 있을 수 있다.
이에 문자별 인식부(214)에서는 문자 분리 및 확장된 이미지 정보를 이용하여 작은포트 크기의 문자라도 인식 알고리즘의 효율성을 통해 문자 인식을 수행할 수 있다.
도 3은 본 발명의 실시예에 따른 원본 이미지 처리 과정을 도시한 도면이다.
도 3을 참조하면, (a), (b)는 종래 방식으로 추출된 문자 이미지를 이진화 한 결과이고, (c), (d)는 본 발명의 문자 인식 방법으로 문자 경계를 유지 후 확대를 수행하여 이진화 한 결과를 나타내는 것이다. 구체적으로 (a)는 원본 이미지의 문자를 추출한 결과, (b)는 원본 이미지의 문자를 이진화 한 결과, (c) 원본 이미지의 문자 경계 유지 확대 결과, (d) 경계 유지 확대 이미지를 이진화 한 결과를 각각 나타내는 것으로서, 원본 이미지에서 "O"의 이미지가 확대되었을 때 윤곽을 좀 더 유지할 수 있으며, 이를 통해 좀 더 확실한 문자 인식을 가능하게 할 수 있다.
도 4는 본 발명의 실시예에 따른 문자 인식부의 동작 절차를 도시한 흐름도이다.
도 4를 참조하면, 400단계에서 문자 인식부(104) 내의 이진화부(200)는 카메라부(102)로부터 원본 이미지를 전달 받아 원본 이미지에 대한 이진화를 수행하게 된다. 그리고 402단계에서는 라인 분리부(202)를 통해 이진화된 이미지에서 배경과 각 라인에 대한 분리를 수행하게 된다.
404단계에서는 문자 분리부(204)에서 라인 분리된 이미지 정보에서 문자 영역에 대한 분리를 수행하게 되며, 이를 통해 문자 분리 영역에 대한 정보를 획득하게 된다. 획득된 문자 분리 영역 정보는 원본 문자 추출부(206)로 전달하게 되며, 406단계에서 원본 문자 추출부(206)는 원본 이미지에서 문자 분리 영역 정보와 같은 영역의 원본 문자 이미지를 추출하게 된다.
그리고 408단계에서 배경색 추정부(208)는 원본 이미지에서 배경 플래그 데이터를 생성한 후, 원본 부분의 픽셀 정보를 이용하여 배경색을 추정하게 된다. 그리고 410단계에서 배경색 경계 추가부(210)는 원본 문자 추출부(206)를 통해 추출된 원본 문자 이미지에 배경색을 가지는 픽셀 라인을 상하좌우에 추가하게 된다.
이에 412단계에서 이미지 확대부(212)에서는 이미지 확대 알고리즘을 이용하여 픽셀 라인이 추가된 원본 문자 이미지를 기 설정된 크기만큼 확장시키고, 이후, 414단계에서 문자별 인식부(214)를 통해 문자 인식을 수행하게 된다.
이상 설명한 바와 같이, 본 발명은 사용자 단말기를 통해 촬영된 이미지에서 문자 인식을 수행하는 경우 문자 이미지 영역에 대한 이진화 및 라인 분리를 수행한 후 이 정보를 이용하여 원래 이미지의 문자 영역에 대해 배경색을 추정하고, 추정된 배경색과 같은 경계선을 추가하여 확장한 후 문자 인식을 수행한다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
이상과 같이, 본 발명에 따른 문자 인식 장치 및 방법은 사용자 단말기를 이용하여 이미지에 대한 문자 인식을 수행하는 경우, 사용자 단말기의 작은 폰트 크기로 인한 문자 인식의 어려움을 배경색 추정 및 이미지 확대 과정을 수행함으로써, 보간 에러를 방지하고 사용자 단말기와 같이 작은 해상도의 문자에 대한 인식률을 향상시키기 위한 것에 적합하다.
100 : 사용자 단말기 102 : 카메라부
104 : 문자 인식부 106 : 제어부
108 : 디스플레이부 110 : 메모리부
112 : 입력부 200 : 이진화부
202 : 라인 분리부 204 : 문자 분리부
206 : 원본 문자 추출부 208 : 배경색 추정부
210 : 배경색 경계 추가부 212 : 이미지 확대부
214 : 문자별 인식부

Claims (11)

  1. 사용자 단말기에 저장된 원본 이미지에 대한 이진화 및 라인 분리를 통해 문자 분리 영역 정보를 추출하는 이진화 분리부와,
    상기 문자 분리 영역 정보를 이용하여 상기 원본 이미지에서 원본 문자 이미지를 추출하는 원본 문자 추출부와,
    이진화 정보를 이용하여 배경 부분과 문자 부분을 나타내는 배경 플래그 데이터를 생성하고, 상기 배경 플래그 데이터를 토대로 한 배경색 추정 알고리즘으로 배경색을 추정하는 배경색 추정부와,
    추정한 배경색으로 상기 원본 문자 이미지에 배경 라인을 추가하는 배경색 경계 추가부와,
    상기 배경 라인이 추가된 원본 문자 이미지를 기 설정된 크기로 확장하는 이미지 확대부
    를 포함하는 문자 인식 장치.
  2. 제 1항에 있어서,
    상기 이진화 분리부는,
    상기 원본 이미지에 대한 이진화를 수행하는 이진화부와,
    상기 이진화된 이미지에서 라인 분리를 수행하는 라인 분리부와,
    상기 라인 분리된 이미지에서 문자 영역에 대한 분리를 수행하는 문자 분리부
    를 포함하는 하는 것을 특징으로 하는 문자 인식 장치.
  3. 삭제
  4. 제 1항에 있어서,
    상기 배경색 추정 알고리즘은,
    가장 빈번한 컬러, 가장 가까운 배경 컬러, RGB 평균, 평균 배경 컬러 알고리즘 중 적어도 하나인 것을 특징으로 하는 문자 인식 장치.
  5. 제1항에 있어서,
    상기 배경색 경계 추가부는,
    상기 원본 문자 이미지의 상하좌우에 상기 배경색 픽셀을 각각 하나씩 추가하는 것을 특징으로 하는 문자 인식 장치.
  6. 제1항에 있어서,
    상기 이미지 확대부는,
    큐빅 보간 알고리즘을 이용하여 확대하는 것을 특징으로 하는 문자 인식 장치.
  7. 사용자 단말기에 저장된 원본 이미지에 대한 이진화 및 라인 분리를 통해 문자 분리 영역 정보를 추출하는 과정과,
    상기 문자 분리 영역 정보를 이용하여 상기 원본 이미지에서 원본 문자 이미지를 추출하는 과정과,
    이진화 정보를 이용하여 원본 이미지에서 배경 부분과 문자 부분을 나타내는 배경 플래그 데이터를 생성하는 과정과,
    상기 배경 플래그 데이터를 토대로 한 배경색 추정 알고리즘으로 배경색을 추정하는 과정
    추정한 배경색으로 상기 원본 문자 이미지에 배경 라인을 추가하는 과정과,
    상기 배경 라인이 추가된 원본 문자 이미지를 기 설정된 크기로 확장하는 과정
    을 포함하는 문자 인식 방법.
  8. 삭제
  9. 제7항에 있어서,
    상기 배경색 추정 알고리즘은,
    가장 빈번한 컬러, 가장 가까운 배경 컬러, RGB 평균, 평균 배경 컬러 알고리즘 중 적어도 하나인 것을 특징으로 하는 문자 인식 방법.
  10. 제7항에 있어서,
    상기 배경 라인을 추가하는 과정은,
    상기 원본 문자 이미지의 상하좌우에 상기 배경색 픽셀을 각각 하나씩 추가하는 것을 특징으로 하는 문자 인식 방법.
  11. 제7항에 있어서,
    상기 기 설정된 크기로 확장하는 과정은,
    큐빅 보간 알고리즘을 이용하여 확대하는 것을 특징으로 하는 문자 인식 방법.
KR1020100096847A 2010-10-05 2010-10-05 문자 인식 장치 및 방법 KR101473713B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020100096847A KR101473713B1 (ko) 2010-10-05 2010-10-05 문자 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100096847A KR101473713B1 (ko) 2010-10-05 2010-10-05 문자 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20120035360A KR20120035360A (ko) 2012-04-16
KR101473713B1 true KR101473713B1 (ko) 2014-12-24

Family

ID=46137284

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100096847A KR101473713B1 (ko) 2010-10-05 2010-10-05 문자 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101473713B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104700357A (zh) * 2015-04-14 2015-06-10 华东理工大学 一种基于双线性算子的汉字图像缩放方法
US10068132B2 (en) * 2016-05-25 2018-09-04 Ebay Inc. Document optical character recognition
CN110895696A (zh) * 2019-11-05 2020-03-20 泰康保险集团股份有限公司 一种图像信息提取方法和装置
KR102478276B1 (ko) * 2021-06-02 2022-12-16 (주)헬스허브 텍스처 필터링 장치 및 그 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060065197A (ko) * 2004-12-10 2006-06-14 한국전자통신연구원 휴대형 카메라로 획득한 문자영상의 문자영역선택을 통한문자인식 장치 및 그 방법
KR20100095835A (ko) * 2009-02-23 2010-09-01 삼성전자주식회사 문자 인식 성능을 향상시키기 위한 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060065197A (ko) * 2004-12-10 2006-06-14 한국전자통신연구원 휴대형 카메라로 획득한 문자영상의 문자영역선택을 통한문자인식 장치 및 그 방법
KR20100095835A (ko) * 2009-02-23 2010-09-01 삼성전자주식회사 문자 인식 성능을 향상시키기 위한 장치 및 방법

Also Published As

Publication number Publication date
KR20120035360A (ko) 2012-04-16

Similar Documents

Publication Publication Date Title
US9996741B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
JP5826081B2 (ja) 画像処理装置、文字認識方法及びコンピュータプログラム
JP4885789B2 (ja) 画像処理方法、画像領域検出方法、画像処理プログラム、画像領域検出プログラム、画像処理装置、および、画像領域検出装置
JP2003228712A (ja) イメージからテキスト状のピクセルを識別する方法
JP2002135592A (ja) 画像処理装置及び記録媒体
KR101473713B1 (ko) 문자 인식 장치 및 방법
WO2014184372A1 (en) Image capture using client device
JP2010056827A (ja) 画像処理装置および画像処理プログラム
JP6953178B2 (ja) 画像処理装置、画像処理方法、プログラム
CN113096043B (zh) 图像处理方法及装置、电子设备和存储介质
CN112070708B (zh) 图像处理方法、图像处理装置、电子设备、存储介质
JP2007164513A (ja) 画像処理装置
JP2010074342A (ja) 画像処理装置、画像形成装置、及びプログラム
JP2007072642A (ja) 画像処理装置および画像処理装置の制御方法
CN105025188B (zh) 图像形成装置、图像处理装置和图像处理方法
US10896344B2 (en) Information processing apparatus, information processing method, and computer program
KR101048399B1 (ko) 문자 검출 방법 및 장치
CN111401352B (zh) 文本图片下划线识别方法、装置、计算机设备及存储介质
JP7301529B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN106934814B (zh) 一种基于图像的背景信息识别方法及装置
CN114973255B (zh) 一种单点文字识别方法及装置
JP2006268180A (ja) 画像処理システム
JP2002074358A (ja) 道路抽出画像処理装置および方法
JP2017207837A (ja) 画像検査装置、画像検査方法、およびプログラム
WO2017088478A1 (zh) 数字分离方法及装置

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191121

Year of fee payment: 6