KR20150099116A - Ocr를 이용한 컬러 문자 인식 방법 및 그 장치 - Google Patents

Ocr를 이용한 컬러 문자 인식 방법 및 그 장치 Download PDF

Info

Publication number
KR20150099116A
KR20150099116A KR1020140020665A KR20140020665A KR20150099116A KR 20150099116 A KR20150099116 A KR 20150099116A KR 1020140020665 A KR1020140020665 A KR 1020140020665A KR 20140020665 A KR20140020665 A KR 20140020665A KR 20150099116 A KR20150099116 A KR 20150099116A
Authority
KR
South Korea
Prior art keywords
image
gray
character recognition
character
value
Prior art date
Application number
KR1020140020665A
Other languages
English (en)
Inventor
권재환
김소연
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020140020665A priority Critical patent/KR20150099116A/ko
Publication of KR20150099116A publication Critical patent/KR20150099116A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)

Abstract

본 발명은 컬러 문자를 인식하기 위한 OCR 장치에 관한 것으로, 문자 인식의 대상이 되는 원본 이미지의 색상 정보(hue information)를 픽셀 단위로 추출하는 색조 검출부; 상기 원본 이미지를 그레이스케일(gray-scale) 이미지로 변환하고, 상기 색상 정보를 이용하여 상기 그레이스케일 이미지를 흑백 이미지로 변환하는 이미지 전처리부; 및 상기 이미지 전처리부를 통해 전 처리된 이미지에 포함된 문자를 인식하는 문자 인식부를 포함한다.

Description

OCR를 이용한 컬러 문자 인식 방법 및 그 장치{METHOD FOR RECOGNIZING A COLOR CHARACTER USING OPTICAL CHARACTER RECOGNITION AND APPARATUS THEREOF}
본 발명은 광학 문자 인식(Optical Character Recognition) 방법 및 그 장치에 관한 것으로, 더욱 상세하게는 원본 이미지에서 추출한 색조 정보를 활용하여 컬러 문자에 대한 인식률을 향상할 수 있는 광학 문자 인식 방법 및 그 장치에 관한 것이다.
최근 들어 디지털 문서의 중요성이 부각되면서 광학 문자 인식(Optical Character Recognition, 이하, 'OCR'이라 칭함) 기술에 대한 필요성이 점점 증대되고 있다. 이러한 광학 문자 인식은 많은 양의 종이 문서를 디지털 문서로 변환해 주는 기술로서, 스캐너 혹은 카메라 등의 광학 기기에 의해 생성된 이미지에 포함된 문자를 컴퓨터 등의 디지털 기기로 편집할 수 있는 문자로 변환하는 일련의 과정을 의미한다.
국내에서 최근 수년간 상용화된 OCR 장치는 한글 인식에 초점을 맞추는 추세에 있으며, 구조적인 특성을 이용하여 한글 문자를 초성, 중성, 종성으로 분리한 후 자소 단위의 인식을 시도하는 것이 보편적인 경향이다.
그런데, 이러한 OCR 장치는 문자 인식의 대상이 되는 이미지의 문자와 배경이 흑백인 경우 높은 문자 인식률을 갖지만, 상기 문자와 배경의 명도가 서로 비슷한 경우에는 매우 낮은 문자 인식률을 갖는 문제점이 있다. 즉, 컬러 문자와 컬러 배경으로 이루어진 문서 이미지의 경우, 문자와 배경의 명도가 서로 비슷하여 해당 문서 이미지에 대한 문자 인식률이 급격히 떨어지게 된다. 이에 따라, 광학 문자 인식의 처리 속도를 유지하면서, 문서 이미지에 포함된 컬러 문자에 대한 인식률을 향상할 수 있는 방안이 절실히 요구된다.
본 발명은 원본 이미지에서 추출한 색상 정보(hue information)를 활용하여 컬러 문자에 대한 인식률을 향상할 수 있는 광학 문자 인식 방법 및 그 장치를 제공한다.
본 발명은 문자 인식의 대상이 되는 원본 이미지의 색상 정보(hue information)를 픽셀 단위로 추출하는 색조 검출부; 상기 원본 이미지를 그레이스케일(gray-scale) 이미지로 변환하고, 상기 색상 정보를 이용하여 상기 그레이스케일 이미지를 흑백 이미지로 변환하는 이미지 전처리부; 및 상기 이미지 전처리부를 통해 전 처리된 이미지에 포함된 문자를 인식하는 문자 인식부를 포함하는 광학 문자 인식 장치를 제공한다.
또한, 본 발명은 문자 인식의 대상이 되는 원본 이미지를 그레이스케일(gray-scale) 이미지로 변환하는 단계; 상기 원본 이미지의 색상 정보(hue information)를 픽셀 단위로 추출하는 단계; 상기 색상 정보를 이용하여 상기 그레이스케일 이미지를 흑백 이미지로 변환하는 단계; 및 기 설정된 알고리즘을 이용하여 상기 흑백 이미지에 포함된 문자를 인식하는 단계를 포함하는 광학 문자 인식 방법을 제공한다.
본 발명의 일 실시 예에 따르면, OCR 장치는 원본 이미지에서 추출한 색조 값(hue value)을 활용하여 비슷한 명도의 문자와 배경을 명확하게 구분함으로써, 컬러 문자에 대한 인식률을 향상할 수 있다.
한편 그 외의 다양한 효과는 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 것이다.
도 1은 본 발명의 일 실시 예에 따른 OCR 시스템의 전체 구성을 개략적으로 도시한 블록도;
도 2는 본 발명의 일 실시 예에 따른 이미지 전처리부의 내부 구성을 도시한 블록도;
도 3은 본 발명의 일 실시 예에 따른 컬러 문자 인식 방법을 도시한 절차 흐름도.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 1은 본 발명의 일 실시 예에 따른 OCR 시스템의 전체 구성을 개략적으로 도시한 블록도이다.
도 1을 참조하면, OCR 시스템은 텍스트를 포함하는 이미지에 대해 광학 문자 인식을 수행하는 OCR 장치(100)와, 문자 인식의 대상이 되는 이미지가 저장되어 있는 이미지 데이터베이스(200)와, 광학 문자 인식을 통해 생성되는 디지털 정보가 저장되는 디지털 정보 데이터베이스(300)를 포함한다.
OCR 장치(100)는 이미지 데이터베이스(200)로부터 제공받은 이미지에 포함된 문자를 인식하여 디지털 정보를 생성하는 기능을 수행한다.
이러한 OCR 장치(100)는 산업용/개인용 컴퓨터, 워크스테이션, PDA(Personal Digital Assistant), 휴대 단말기 등과 같이, 메모리 수단을 구비하고 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기(미도시)일 수 있지만, 이러한 디지털 기기에 포함되는 프로그램 모듈에 관한 것일 수도 있다. 이때, 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 및 기타 프로그램 모듈의 형태로 디지털 기기에 포함될 수 있으며, 물리적으로는 다양한 기억 장치에 저장될 수 있다. 또한, 이러한 프로그램 모듈은 상기 디지털 기기와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명의 실시 예에 따른 광학 인식 방법을 수행하거나 혹은 특정 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 반드시 이에 한정되지는 않는다.
이미지 데이터베이스(200)는 문자 인식의 대상이 되는 각종 이미지를 저장하는 기능을 수행한다. 이때, 이미지 데이터베이스(200))에 저장되는 이미지는, 이미지 정보 그 자체뿐만 아니라, 해당 이미지의 출처, 서지 사항, 생성 일자 등의 정보를 더 포함하는 디지털 정보를 포괄적으로 지칭한다.
또한, 이미지 데이터베이스(200)에 저장된 이미지는, 손으로 작성된 이미지나 인쇄된 이미지를 스캐너나 카메라 등의 광학 기기를 통해 스캐닝하거나 촬영함으로써 생성되는 것이 일반적이지만, 반드시 이에 한정되는 것은 아니며, 문자 인식의 대상이 될 수 있는 것이라면 어떠한 디지털 정보라도 본 발명에 따른 이미지에 해당할 수 있다. 예를 들어, 마우스, 펜 마우스, 터치 패드, 터치 패널, 태블릿(tablet) 등의 입력 장치(미도시) 등에 의해 생성된 이미지도 본 발명에 따른 이미지에 포함될 수 있다. 아울러, 이러한 이미지는 반드시 문서 형식으로 작성된 내용을 포함할 필요는 없으며, 해당 이미지에는 컬러 이미지, 그레이 스케일(gray-scale) 이미지는 물론, 컴퓨터 등의 디지털 기기로 처리할 수 있는 형식으로 작성된 이미지가 모두 포함될 수 있다.
디지털 정보 데이터베이스(300)는 OCR 장치(100)에 의해 생성된 디지털 정보를 수신하여 저장하는 기능을 수행한다.
한편, 본 실시 예에서는, 이미지 데이터베이스(200)와 디지털 정보 데이터베이스(300)가 디지털 기기(즉, OCR 장치)의 외부에 위치하는 것을 예시하고 있으나 이를 제한하지는 않으며, 상기 디지털 기기의 내부에 구비된 메모리를 통해 구현될 수도 있음은 당업자에게 자명할 것이다.
이하에서는, 본 발명의 일 실시 예에 따른 OCR 장치(100)의 내부 구성 및 각 구성 요소의 기능에 대해 설명하도록 한다.
다시, 도 1을 참조하면, OCR 장치(100)는 제어부(110), 색조 검출부(130), 이미지 전처리부(150), 문자 인식부(170) 및 디지털 정보 생성부(190)를 포함한다.
제어부(110)는 색조 검출부(130), 이미지 전처리부(150), 문자 인식부(170) 및 디지털 정보 생성부(190) 간의 데이터 흐름을 전반적으로 제어하는 기능을 수행한다. 즉, 제어부(100)는 OCR 장치(100)의 각 구성 요소 간의 데이터 흐름을 제어함으로써, 색조 검출부(130), 이미지 전처리부(150), 문자 인식부(170) 및 디지털 정보 생성부(190)가 각각의 고유 기능을 수행하도록 제어한다.
색조 검출부(180)는 이미지 데이터베이스(200)로부터 제공받은 이미지(즉, 문자 인식의 대상이 되는 원본 이미지)의 색조 값(또는 색상 값, hue value)을 픽셀 단위로 추출한 후, 추출된 색조 값을 기 설정된 메모리 공간에 저장하는 기능을 수행한다. 이때, 색조 값은 원본 이미지에서 추출한 픽셀 단위의 R/G/B 값이거나 혹은 이를 연산한 평균값일 수 있으며 이를 제한하지는 않는다. 따라서, 픽셀 단위로 원본 이미지의 고유한 색상을 나타내는 값이라면, 어떠한 것이라도 본 발명에 따른 색조 값으로 사용될 수 있음은 당업자에게 자명할 것이다.
또한, 상기 색조 검출부(180)를 통해 추출한 색조 값은, 추후 그레이 스케일 이미지를 흑백 이미지(또는 이진 영상)로 변환 시, 상기 그레이 스케일 이미지에 포함된 비슷한 명도의 문자와 배경을 명확히 구분하도록 하기 위해 사용된다.
이미지 전처리부(150)는 문자 인식에 앞서, 이미지에 포함된 문자가 문자 이외의 부분인 배경과 명확하게 구분되도록 하여 문자가 포함된 이미지 영역을 정확하게 추출할 수 있도록 처리하는 일련의 과정들을 수행한다.
가령, 이미지 전처리부(150)는 a) 회색 변환 및 이진화 연산 과정, b) 이미지의 기울기를 보정하는 과정, c) 이미지에 포함된 잡음(noise)을 제거하는 과정, d) 레이아웃 분석, 글/그림/표에 대한 구분 등의 프로세스를 포함하는 구조 분석 과정, e) 텍스트 영역에서의 문자 분할(segmentation) 과정 등을 순차적으로 처리한다. 이러한 이미지 전처리부(150)의 동작에 관한 자세한 설명은 도 2를 참조하여 후술하도록 한다.
문자 인식부(170)는 공지의 문자 인식 알고리즘을 기반으로 전 처리된 이미지에 포함된 문자를 인식하는 기능을 수행한다. 즉, 문자 인식부(170)는 각 문자의 특징들을 추출한 후 그 값을 데이터베이스에 등록된 문자와 비교함으로써 해당 문자를 인식하게 된다.
디지털 정보 생성부(190)는 이미지에 대한 서지 정보와, 이미지에 포함된 문자의 인식 정보를 이용하여 소정의 형식에 따른 디지털 정보를 생성하는 기능을 수행한다. 여기서, 디지털 정보는 워드 파일과 같은 문서 파일로서 구현되거나, 혹은 HTML(HyperText Markup Language), XML(eXtensible Markup Language)와 같은 마크업 언어로 표현된 웹 페이지로서 구현될 수 있다.
또한, 디지털 정보 생성부(190)는 생성된 디지털 정보를 디지털 정보 데이터베이스(300)로 전송하여 저장 및 관리되도록 한다.
이하에서는, 본 발명의 일 실시 예에 따른 이미지 전처리부(150)의 내부 구성 및 각 구성 요소의 기능에 대해 좀 더 상세히 설명하도록 한다.
도 2는 본 발명의 일 실시 예에 따른 이미지 전처리부의 내부 구성을 도시한 블록도이다.
도 2를 참조하면, 이미지 전처리부(150)는 기울기 보정부(210), 회색 변환부(220), 이진 영상 변환부(230), 잡음 제거부(240), 구조 분석부(250) 및 문자 분할부(260)를 포함한다.
기울기 보정부(210)는 문자 인식의 대상이 되는 이미지의 기울기 정도를 측정한 후, 이를 교정하는 기능을 수행한다. 이미지의 기울기 정도는 문서의 스캐닝 과정에서 일반적으로 고려되는 문제로서, 이미지의 기울기로 인해 왜곡이 심해지면 문자 인식 자체가 불가능하기 때문에, 해당 이미지의 기울기에 대한 교정이 필요하다.
회색 변환부(220)는 문자 인식의 대상이 되는 원본 이미지를 그레이스케일(gray-scale) 이미지로 변환하는 기능을 수행한다. 여기서, 그레이스케일 이미지는 원본 이미지의 명도 및 채도 성분만을 구비하고 있을 뿐, 색상 성분을 구비하고 있지 않다. 따라서, 원본 이미지가 컬러 문자와 컬러 배경으로 이루어져, 문자와 배경이 서로 비슷한 명도 및 채도 값(즉, 그레이스케일값, gray-scale value)을 갖는 경우, 문자와 배경의 구분이 뚜렷하지 않아 좋은 이진 영상을 획득할 수 없다.
이러한 문제를 해결하기 위해, 본 발명의 실시 예에 따른 이미지 전처리부(150)는, 원본 이미지에서 픽셀 단위로 추출한 색조 값을 활용하여 그레이스케일 이미지의 문자와 배경을 명확하게 구분할 수 있도록 한다.
좀 더 구체적으로, 이진 영상 변환부(230)는 색조 검출부(130)로부터 제공받은 색조 값을 활용하여 그레이스케일 이미지를 흑백 이미지(또는 이진 영상, binary image)로 변환하는 기능을 수행한다.
가령, 일 실시 예로, 이진 영상 변환부(230)는 픽셀 단위로 그레이스케일값에 색조 값을 합산하여, 그 합산된 값이 기 설정된 임계치를 초과하는지 여부에 따라, 그레이스케일 이미지의 문자와 배경을 명확하게 구분할 수 있다. 여기서, 임계치는 전체 이미지의 그레이스케일값과 색조 값을 합산한 결과의 평균치일 수 있다. 따라서, 상기 합산된 값이 임계치를 초과한 경우 해당 픽셀 값을 1(흑색)로 지정하고, 그렇지 않은 경우 해당 픽셀 값을 0(백색)으로 지정하여 이진화 연산을 수행한다. 이때, '1'은 문자를 지칭하고, '0'은 배경을 지칭하므로, 이로 인해 문자와 배경이 서로 명확하게 구분된다.
또한, 다른 실시 예로, 이진 영상 변환부(230)는, 인접 픽셀들 간에 그레이스케일값이 유사한 경우, 픽셀 단위로 색조 값을 기 설정된 임계치와 비교하여, 그 값이 임계치를 초과하는지 여부에 따라, 그레이스케일 이미지의 문자와 배경을 명확하게 구분할 수 있다. 여기서, 임계치는 전체 이미지의 색조 값을 합산한 결과의 평균치일 수 있다. 따라서, 상기 색조 값이 임계치를 초과한 경우 해당 픽셀 값을 1(흑색)로 지정하고, 그렇지 않은 경우 해당 픽셀 값을 0(백색)으로 지정하여 이진화 연산을 수행한다. 마찬가지로, '1'은 문자를 지칭하고, '0'은 배경을 지칭하므로, 이로 인해 문자와 배경이 서로 명확하게 구분된다.
또한, 또 다른 실시 예로, 이진 영상 변환부(230)는, 인접 픽셀들 간에 그레이스케일값이 유사한 경우, 픽셀 단위로 색조 값을 참조하여, 그레이스케일 이미지의 문자와 배경을 명확하게 구분할 수 있다. 가령, 상기 색조 값이 컬러 문자에 해당하는 색조 값의 평균치를 갖는 경우 해당 픽셀 값을 1(흑색)로 지정하고, 상기 색조 값이 컬러 배경에 해당하는 색조 값의 평균치를 갖는 경우 해당 픽셀 값을 0(백색)으로 지정하여 이진화 연산을 수행한다. 마찬가지로, '1'은 문자를 지칭하고 '0'은 배경을 지칭하므로, 이로 인해 문자와 배경이 서로 확실하게 구분된다.
한편, 이 밖에도, 이진 영상 변환부(230)는 원본 이미지에서 추출한 색조 값을 다양한 방식으로 활용하여, 그레이스케일 이미지의 문자와 배경을 명확하게 구분할 수 있음은 당업자에게 자명할 것이다.
잡음 제거부(240)는 문자 인식의 대상이 되는 이미지에 포함된 잡음(noise)을 제거하는 기능을 수행한다. 원본 이미지의 글자 부분에 잡음이 섞이면 전혀 다른 글자로 인식되는 경우가 종종 발생한다. 이러한 잡음이 글자의 한 부분인지를 판단하여 글자 부분이 아니라면 잡음을 제거하여야 한다. 잡음 제거를 위해서는 크게 저 주파수 통과 필터(Low Pass Filter), 미디언 필터(Median Filter), Smoothing 기법 등이 적용될 수 있다. 이러한 잡음 제거 기법들 중 원본 이미지의 강한 에지(edge)와 상세한 부분을 보존하기 위해서는 미디언 필터가 바람직하나, 반드시 이에 한정되는 것은 아니다.
구조 분석부(250)는 문자 인식의 대상이 되는 이미지의 구조(또는 레이아웃)를 분석하여 텍스트 영역을 검출하는 기능을 수행한다. 통상, 이미지는 텍스트 영역뿐만 아니라 그래픽 영역(그림, 표, 선 등)을 포함한다. 따라서, 구조 분석부(250)는 공지의 투영 프로파일을 이용하여 해당 이미지에 포함된 텍스트 영역을 검출한다.
문자 분할부(260)는 문자 인식의 대상이 되는 이미지의 텍스트 영역을 문자 단위로 분할하는 기능을 수행한다. 문자 분할 과정은 이미지 전처리의 최종 과정으로 문자 인식에 가장 많은 영향을 미치므로, 비정상적인 문자 분할로 인해 인식 결과가 전혀 다르게 나올 수 있다. 특히, 한글에서의 문자 분할의 경우, 분할된 사각형은 폭과 높이의 비율이 비슷해야 한다.
한편, 설명의 편의상, 본 실시 예에서는, 문자 인식의 대상이 되는 이미지의 전처리 과정을 복수의 모듈(210~260)을 통해 구현하는 것을 예시하고 있으나, 이를 제한하지는 않는다. 따라서, 상술한 이미지 전처리 과정을 하나의 통합 모듈을 통해 구현할 수도 있음은 당업자에게 자명할 것이다.
도 3은 본 발명의 일 실시 예에 따른 컬러 문자 인식 방법을 도시한 절차 흐름도이다.
도 3을 참조하면, OCR 장치(100)는 이미지 데이터베이스(200)로부터 문자 인식의 대상이 되는 이미지를 수신한다(S305).
OCR 장치(100)는 문자 인식의 대상이 되는 이미지가 컬러 문자를 포함하고 있는지 여부를 확인한다(S310). 상기 확인 결과, 해당 이미지가 컬러 문자를 포함하고 있지 않은 경우, OCR 장치(100)는 기존과 동일한 OCR 방식을 통해 문자를 인식한다. 한편, 상기 확인 결과, 해당 이미지가 컬러 문자를 포함하는 경우, OCR 장치(100)는 본 발명에서 제안하는 새로운 OCR 방식을 통해 문자를 인식한다. 또한, 다른 실시 예로, 원본 이미지가 수신되면(S305), 310 단계를 거치지 않고 바로 315 단계 및 320 단계로 진입함으로써, 본 발명에 따른 OCR 방식을 통해 문자를 인식할 수도 있다.
OCR 장치(100)는 이미지 데이터베이스(200)로부터 전달받은 원본 이미지를 그레이스케일(gray-scale) 이미지로 변환한다(S315). 아울러, OCR 장치(100)는 문자 인식의 대상이 되는 원본 이미지의 색조 값(hue value)을 픽셀 단위로 추출한 후, 추출된 색조 값을 기 설정된 메모리 공간에 임시로 저장한다(S320).
이후, OCR 장치(100)는 원본 이미지에서 추출한 색조 값을 활용하여 그레이스케일 이미지를 흑백 이미지(또는 이진 영상, binary image)로 변환하는 동작을 수행한다(S325).
가령, 일 실시 예로, OCR 장치(100)는 픽셀 단위로 그레이스케일값에 색조 값을 합산하여, 그 합산된 값이 기 설정된 임계치를 초과하는지 여부에 따라, 그레이스케일 이미지의 문자와 배경을 구분할 수 있다.
또한, 다른 실시 예로, OCR 장치(100)는, 인접 픽셀들 간에 그레이스케일값이 유사한 경우, 픽셀 단위로 색조 값을 기 설정된 임계치와 비교하여, 그 값이 임계치를 초과하는지 여부에 따라, 그레이스케일 이미지의 문자와 배경을 구분할 수 있다. 또한, 또 다른 실시 예로, OCR 장치(100)는, 인접 픽셀들 간에 그레이스케일값이 유사한 경우, 픽셀 단위로 색조 값을 참조하여, 그레이스케일 이미지의 문자와 배경을 구분할 수도 있다.
OCR 장치(100)는 흑백 이미지(또는 이진 영상)에 포함된 잡음(noise)을 제거하는 동작을 수행한다(S330). 이때, OCR 장치(100)는 저 주파수 통과 필터(Low Pass Filter), 미디언 필터(Median Filter), Smoothing 기법 등을 이용하여 잡음을 제거한다. 한편, 본 실시 예에서는, 흑백 이미지에 포함된 잡음을 제거하는 동작을 예시하고 있으나, 이를 제한하지는 않는다. 따라서, 원본 이미지 또는 그레이스케일 이미지에 포함된 잡음을 제거한 다음, 흑백 이미지로 변환할 수도 있음은 당업자에게 자명할 것이다.
OCR 장치(100)는 문자 인식의 대상이 되는 흑백 이미지의 구조(또는 레이아웃)를 분석하여 텍스트 영역을 검출한다(S335). 이때, OCR 장치(100)는 공지의 투영 프로파일을 이용하여 해당 이미지의 텍스트 영역을 검출할 수 있다. 이후, 이미지 전처리의 마지막 과정으로, OCR 장치(100)는 문자 인식의 대상이 되는 이미지의 텍스트 영역을 문자 단위로 분할한다(S340).
OCR 장치(100)는 공지의 문자 인식 알고리즘을 이용하여 상기 전 처리된 이미지에 포함된 문자를 인식한다(S345). 즉, OCR 장치(100)는 각 문자의 특징들을 추출한 후 그 값을 데이터베이스에 등록된 문자와 비교함으로써 해당 문자를 인식하게 된다.
이후, OCR 장치(100)는 이미지에 대한 서지 정보와, 이미지에 포함된 문자의 인식 정보를 이용하여 소정의 형식에 따른 디지털 정보를 생성한 후, 디지털 정보 데이터베이스(300)에 저장한다(S350).
이상 상술한 바와 같이, 본 발명의 실시 예에 따른 OCR 장치는 원본 이미지에서 추출한 색조 값(hue value)을 활용하여 비슷한 명도의 문자와 배경을 명확하게 구분함으로써, 컬러 문자에 대한 인식률을 향상할 수 있다.
한편, 본 발명은 디지털 기기에 구비된 프로세서가 읽을 수 있는 기록매체에 프로세서가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 프로세서가 읽을 수 있는 기록매체는 프로세서에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 프로세서가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 인터넷을 통한 전송 등과 같은 캐리어 웨이브의 형태로 구현되는 것도 포함한다. 또한 프로세서가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 프로세서가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
100 : OCR 장치 110 : 제어부
130 : 색조 검출부 150 : 이미지 전처리부
170 : 문자 인식부 190 : 디지털 정보 생성부
200 : 이미지 데이터베이스 300 : 디지털 정보 데이터베이스

Claims (8)

  1. 문자 인식의 대상이 되는 원본 이미지의 색상 정보(hue information)를 픽셀 단위로 추출하는 색조 검출부;
    상기 원본 이미지를 그레이스케일(gray-scale) 이미지로 변환하고, 상기 색상 정보를 이용하여 상기 그레이스케일 이미지를 흑백 이미지로 변환하는 이미지 전처리부; 및
    상기 이미지 전처리부를 통해 전 처리된 이미지에 포함된 문자를 인식하는 문자 인식부를 포함하는 광학 문자 인식 장치.
  2. 제1항에 있어서,
    상기 색상 정보는 상기 원본 이미지에서 추출한 R/G/B 값임을 특징으로 하는 광학 문자 인식 장치.
  3. 제1항에 있어서,
    상기 흑백 이미지는, 상기 원본 이미지의 문자를 지시하는 '1'과 배경을 지시하는 '0'으로 이루어진 이진 영상(binary image)임을 특징으로 하는 광학 문자 인식 장치.
  4. 제1항에 있어서,
    상기 이미지 전처리부는, 상기 그레이스케일 이미지의 그레이스케일값에 색조 값을 픽셀 단위로 합산하고, 상기 합산된 값이 기 설정된 임계치를 초과하는지 여부에 따라 이진화 연산을 수행하는 것을 특징으로 하는 광학 문자 인식 장치.
  5. 제1항에 있어서,
    상기 이미지 전처리부는, 픽셀 단위로 추출한 색조 값이 기 설정된 임계치를 초과하는지 여부에 따라 이진화 연산을 수행하는 것을 특징으로 하는 광학 문자 인식 장치.
  6. 제1항에 있어서,
    상기 이미지 전처리부는, 상기 흑백 이미지에 포함된 잡음(noise)을 제거하는 것을 특징으로 하는 광학 문자 인식 장치.
  7. 문자 인식의 대상이 되는 원본 이미지를 그레이스케일(gray-scale) 이미지로 변환하는 단계;
    상기 원본 이미지의 색상 정보(hue information)를 픽셀 단위로 추출하는 단계;
    상기 색상 정보를 이용하여 상기 그레이스케일 이미지를 흑백 이미지로 변환하는 단계; 및
    기 설정된 알고리즘을 이용하여 상기 흑백 이미지에 포함된 문자를 인식하는 단계를 포함하는 광학 문자 인식 방법.
  8. 제7항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
KR1020140020665A 2014-02-21 2014-02-21 Ocr를 이용한 컬러 문자 인식 방법 및 그 장치 KR20150099116A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140020665A KR20150099116A (ko) 2014-02-21 2014-02-21 Ocr를 이용한 컬러 문자 인식 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140020665A KR20150099116A (ko) 2014-02-21 2014-02-21 Ocr를 이용한 컬러 문자 인식 방법 및 그 장치

Publications (1)

Publication Number Publication Date
KR20150099116A true KR20150099116A (ko) 2015-08-31

Family

ID=54060345

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140020665A KR20150099116A (ko) 2014-02-21 2014-02-21 Ocr를 이용한 컬러 문자 인식 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR20150099116A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101699765B1 (ko) * 2016-09-23 2017-01-25 (주) 천기화생활과학연구소 상품 구매자가 촬영한 사진으로 상품을 구매하는 방법
KR20200104486A (ko) 2019-02-26 2020-09-04 주식회사 핀그램 오브젝트 인식 시스템 및 그 방법
KR20220052517A (ko) * 2020-10-21 2022-04-28 엄혜용 온라인 게임 내에서 문자를 인식하는 텍스트 마이닝 장치
KR102507534B1 (ko) * 2022-03-15 2023-03-08 김용남 인공지능 기반의 ocr 인식을 이용한 회계 관리 방법 및 장치

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101699765B1 (ko) * 2016-09-23 2017-01-25 (주) 천기화생활과학연구소 상품 구매자가 촬영한 사진으로 상품을 구매하는 방법
KR20200104486A (ko) 2019-02-26 2020-09-04 주식회사 핀그램 오브젝트 인식 시스템 및 그 방법
KR20220052517A (ko) * 2020-10-21 2022-04-28 엄혜용 온라인 게임 내에서 문자를 인식하는 텍스트 마이닝 장치
KR102507534B1 (ko) * 2022-03-15 2023-03-08 김용남 인공지능 기반의 ocr 인식을 이용한 회계 관리 방법 및 장치

Similar Documents

Publication Publication Date Title
US7715628B2 (en) Precise grayscale character segmentation apparatus and method
US9495343B2 (en) Horizontal and vertical line detection and removal for document images
KR101795823B1 (ko) 광학 문자 인식되는 텍스트 영상의 텍스트 개선 기법
US8559748B2 (en) Edge detection
EP1910994B1 (en) Binarization of an image
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
JP5934762B2 (ja) 文字の形状特徴を使用した文字比較による文書改変検知方法、コンピュータプログラム、記録媒体および情報処理装置
US9275030B1 (en) Horizontal and vertical line detection and removal for document images
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
US11151402B2 (en) Method of character recognition in written document
US9626601B2 (en) Identifying image transformations for improving optical character recognition quality
JP2001358925A (ja) 画像処理のための装置、方法及び記録媒体
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
JP6122988B1 (ja) 画像処理装置、画像処理方法、および、プログラム
KR20150099116A (ko) Ocr를 이용한 컬러 문자 인식 방법 및 그 장치
CN113076952B (zh) 一种文本自动识别和增强的方法及装置
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
CN111445402B (zh) 一种图像去噪方法及装置
CN110826360A (zh) Ocr图像预处理与文字识别
CN115331234A (zh) 存储有图像处理程序的计算机可读取的非瞬时性记录介质、以及图像处理装置
JP2007328652A (ja) 画像処理装置および画像処理プログラム
CN112215783B (zh) 一种图像噪点识别方法、装置、存储介质及设备
KR100850173B1 (ko) 영상 이진화 장치 및 방법
JP2021060875A (ja) コマ抽出方法及びプログラム
CN115700824A (zh) 文字分割方法、电子设备及存储介质

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid