KR101907414B1 - 촬영 이미지 기반의 문자 인식 장치 및 방법 - Google Patents

촬영 이미지 기반의 문자 인식 장치 및 방법 Download PDF

Info

Publication number
KR101907414B1
KR101907414B1 KR1020110133502A KR20110133502A KR101907414B1 KR 101907414 B1 KR101907414 B1 KR 101907414B1 KR 1020110133502 A KR1020110133502 A KR 1020110133502A KR 20110133502 A KR20110133502 A KR 20110133502A KR 101907414 B1 KR101907414 B1 KR 101907414B1
Authority
KR
South Korea
Prior art keywords
image
input image
color value
representative
display screen
Prior art date
Application number
KR1020110133502A
Other languages
English (en)
Other versions
KR20130066819A (ko
Inventor
김상호
강우성
권무식
김정림
박정완
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020110133502A priority Critical patent/KR101907414B1/ko
Priority to US13/712,480 priority patent/US9082039B2/en
Priority to EP12196829.1A priority patent/EP2605186B1/en
Priority to CN201210539101.7A priority patent/CN103198311B/zh
Publication of KR20130066819A publication Critical patent/KR20130066819A/ko
Priority to US14/738,096 priority patent/US9235779B2/en
Application granted granted Critical
Publication of KR101907414B1 publication Critical patent/KR101907414B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • G06K7/10Methods or arrangements for sensing record carriers, e.g. for reading patterns by electromagnetic radiation, e.g. optical sensing; by corpuscular radiation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • General Health & Medical Sciences (AREA)
  • Toxicology (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

본 발명은 촬영 이미지 기반의 문자 인식 장치 및 방법에 관한 것이다.
이를 위해 본 발명은 입력 이미지 내에서 이미지 분석을 위한 관심 영역을 선택하고, 선택된 관심 영역을 분석하여 상기 입력 이미지의 종류를 판단하여 판단 결과 입력 이미지가 디스플레이 화면을 촬영한 디스플레이 화면 이미지인 경우 입력 이미지에 디스플레이 화면 내 문자 영역과 배경 영역을 구분하기 위한 이미지 효과를 적용한 후 이미지 효과가 적용된 입력 이미지를 이진화하고, 이진화된 입력 이미지로부터 문자를 인식함으로써 디스플레이 화면을 촬영한 촬영 이미지에 포함된 문자를 정확하게 인식할 수 있다.

Description

촬영 이미지 기반의 문자 인식 장치 및 방법{APPARUS AND METHOD FOR CHARACTER RECOGNITION BASED ON PHOTOGRAPH IMAGE}
본 발명은 문자 인식 장치에 관한 것으로, 특히 카메라를 통해서 촬영된 표시 화면에 대한 이미지 내에서 문자를 인식하기 위한 장치 및 방법에 관한 것이다.
최근 스마트폰이 대중화되면서 스마트폰의 카메라를 이용하여 문서나 명함 등을 촬영하여 촬영된 이미지로부터 문자를 인식하는 응용 프로그램들이 많이 사용되고 있다. 여기서, 문자 인식을 위한 기능 중 광학 문자 인식(OCR, Optical Character Recognition) 기능은 터치 키패드 및 음성인식 등과 함께 스마트 폰에서 또 다른 기본 입력 기능으로 사용될 수 있는 다중모드 소프트웨어 입력 기능(Multi-modal Software Input Panel)으로서의 가능성이 높아지고 있다.
모바일 카메라로 촬영한 문자 이미지를 인식하는 방법은, 인식 결과를 다른 사람에게 전자메일이나 메시지로 전달하거나 인터넷으로 연결시켜주는 기능 등을 스마트폰 사용자에게 제공해 줄 수 있다. 특히, 컴퓨터 스크린에 표시되는 문자를 카메라로 촬영하여 인식하는 경우에는, 컴퓨터 상의 다양한 문자 정보를 손 쉽게 스마트폰으로 가져와서 여러 가지 용도로 사용할 수 있어서 사용자 편의성이 높아질 수 있다.
상기와 같이 컴퓨터 스크린에 있는 문자를 모바일 카메라를 통해 인식하는 방법은, 종이 신문이나 책, 잡지 등을 인식하는 경우와 다른 기술적인 방법의 개발이 필요하다는 번거로움이 있다.
또한, 최근 많이 보급되고 있는 모바일용 고화질 카메라를 이용해 컴퓨터 스크린에 표시된 문자 등을 촬영할 경우, 카메라 이미지 해상도가 컴퓨터 스크린의 해상도 보다 큰 경우가 많기 때문에, 스크린을 구성하는 각 픽셀들의 위치에 정상적인 OCR(optical character reader)과 같은 문자 인식 성능을 저하시키는 이미지 잡음이 형성된다는 불편함이 있다.
뿐만 아니라, 종래에는 일반적인 문자 인식 시스템에서 사용이 제한적이고, 컴퓨터 화면 이미지에 대한 선명화 단계와 저해상도인 화면 이미지를 고해상도로 변환하는 단계가 일반적인 카메라를 기반으로 한 문자 인식 시스템에서 적합하지 않다는 단점이 있다.
따라서, 본 발명은 컴퓨터 화면이나 TV 화면과 같은 디스플레이 화면뿐만 아니라, 종이 신문 및 책, 잡지 등과 같은 문서들을 촬영한 촬영 이미지로부터 문자를 인식하기 위한 장치 및 방법을 제공한다.
상술한 바를 달성하기 위한 본 발명은 촬영 이미지 기반의 문자 인식 장치에 있어서, 입력 이미지가 입력되면 상기 입력 이미지 내에서 이미지 분석을 위한 관심 영역을 선택하고, 상기 선택된 관심 영역을 분석하여 상기 입력 이미지의 종류를 판단하는 이미지 판단부와, 판단 결과 상기 입력 이미지가 디스플레이 화면을 촬영한 디스플레이 화면 이미지인 경우 상기 입력 이미지에 상기 디스플레이 화면 내 문자 영역과 배경 영역을 구분하기 위한 이미지 효과를 적용하는 이미지 효과부와, 상기 이미지 효과가 적용된 입력 이미지를 이진화하는 이진화부와, 상기 이진화된 입력 이미지로부터 문자를 인식하는 문자 인식부를 포함하는 것을 특징으로 한다.
또한, 본 발명은 촬영 이미지 기반의 문자 인식 방법에 있어서, 입력 이미지가 입력되면 상기 입력 이미지 내에서 이미지 분석을 위한 관심 영역을 선택하고, 상기 선택된 관심 영역을 분석하여 상기 입력 이미지의 종류를 판단하는 과정과, 판단 결과 상기 입력 이미지가 디스플레이 화면을 촬영한 디스플레이 화면 이미지인 경우 상기 입력 이미지에 상기 디스플레이 화면 내 문자 영역과 배경 영역을 구분하기 위한 이미지 효과를 적용하는 과정과, 상기 이미지 효과가 적용된 입력 이미지를 이진화하는 과정과, 상기 이진화된 입력 이미지로부터 문자를 인식하는 과정을 포함함을 특징으로 한다.
본 발명은 많은 정보가 가변적으로 표시되는 컴퓨터 스크린 상의 문자 정보를 무선이나 인터넷 연결 과정 등의 여러 가지 절차적 단계를 거치지 않고 휴대용 단말을 이용하여 간편하게 바로 공유할 수 있다는 이점이 있다.
또한, 본 발명은 휴대용 단말을 사용하여 좀 더 편리하게 디스플레이 화면의 문자들을 인식할 수 있는 편의성으로 제공한다는 이점이 있다.
도 1은 본 발명의 실시 예에 따른 문자 인식 장치의 구성도,
도 2는 본 발명의 실시 예에 따른 문자 인식 장치가 입력 이미지의 종류를 판단하여 판단 결과에 따라 문자를 인식하는 과정을 나타내는 흐름도,
도 3은 본 발명의 실시 예에 따른 이미지 판단부에서 입력 이미지의 종류를 판단하는 과정을 나타내는 흐름도,
도 4 내지 도 10은 본 발명의 실시 예에 따라 이미지 판단부에서 입력 이미지의 종류를 판단하는 과정을 설명하기 위한 예시도들,
도 11은 본 발명의 실시 예에 따라 이미지 효과부에서 입력 이미지에 효과를 적용하는 과정을 설명하기 위한 예시도,
도 12는 본 발명의 실시 예에 따라 결과 출력부에서 출력한 문자 인식 결과를 나타내는 예시도,
도 13은 본 발명의 실시 예에 따라 이미지 판단부에서 판단한 입력 이미지가 문서를 촬영한 이미지인 경우를 설명하기 위한 예시도.
이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명 및 첨부 도면에서 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 실시 예에 따른 문자 인식 장치의 구성도를 나타낸다.
본 발명의 실시 예에 따른 문자 인식 장치는 카메라부(10), 이미지 판단부(20), 이미지 효과부(30), 이진화부(40), 문자 인식부(50), 결과 출력부(60)를 포함한다.
카메라부(10)는 입력되는 광신호를 영상 프레임으로 변환하여 입력 이미지를 출력한다.
이미지 판단부(20)는 입력 이미지가 어떤 종류의 촬영 이미지인지를 판단하여 판단 결과에 따라 이미지 효과부(30) 또는 이진화부(40)로 입력 이미지를 출력한다. 예를 들어, 이미지 판단부(20)는 컴퓨터 화면 또는 TV 화면과 같은 디스플레이 화면을 촬영한 촬영 이미지인지 또는 종이 신문이나 책, 잡지등과 같은 문서를 촬영한 촬영 이미지인지를 판단한다. 판단결과 입력 이미지가 디스플레이 화면을 촬영한 이미지이면 이미지 판단부(20)는 입력 이미지를 이미지 효과부(30)로 출력하고, 문서를 촬영한 이미지이면 입력 이미지를 이진화부(40)로 출력한다.
구체적으로, 이미지 판단부(20)는 입력 이미지에 대한 종류를 분석하기 위해 주파수 영역 분석 방법과 분류기(Classifier) 적용 방법을 이용할 수 있다.
먼저, 주파수 영역 분석 방법은 입력 이미지 내에 관심 영역(ROIs, Regions Of Interest)를 선택하고, 선택된 관심 영역에서 주파수 분포 특성을 추출하여 추출된 주파수 분포 특성을 분석하는 방법을 의미한다. 여기서, 관심 영역은 전체 이미지 영역 안에서 관심 있는 영역을 부분적으로 지정한 것을 의미한다.
다음으로, 분류기(Classifier) 적용 방법은 컴퓨터 화면인 이미지들과 그렇지 않은 이미지들에 대한 특징을 추출하고, 추출된 특징들을 분류기를 이용하여 학습하도록 하여 이진 분류기(binary classifier)를 생성한 후 문자 인식 시스템에 적용하는 방법을 의미한다.
본 발명의 실시 예에서는 주파수 분석 방법으로 DCT(Discrete Cosine Transform) 방법을 이용하여 설명하도록 한다.
이미지 효과부(30)는 판단 결과에 따라 입력된 촬영 이미지에 특정 효과를 적용시켜 출력한다. 구체적으로, 이미지 효과부(30)는 촬영 이미지에 블러링(Bluring)과 같은 이미지 흐림 효과를 적용시켜 문자 영역과 배경 영역의 색상 차이를 줄이도록 할 수 있다.
이진화부(40)는 효과가 적용된 촬영 이미지 또는 이미지 판단부(20)로부터 입력된 촬영 이미지를 이진화하여 이진화된 이미지를 생성한다. 구체적으로, 이진화부(40)는 촬영 이미지에 이진화 동작을 수행하여 컴퓨터가 인식할 수 있는 0과 1과 같은 코드로 변환한다.
문자 인식부(50)는 이진화된 이미지로부터 문자를 인식한다. 구체적으로 문자 인식부(50)는 OCR 방식으로 문자를 인식한다.
결과 출력부(60)는 문자 인식에 따른 결과 값을 출력한다.
이와 같이 본 발명은 입력 이미지가 디스플레이 화면을 촬영한 이미지인지 문서를 촬영한 이미지인지를 판단하여 디스플레이 화면을 촬영한 촬영 이미지에 포함된 문자를 정확하게 인식할 수 있다.
도 2는 본 발명의 실시 예에 따른 문자 인식 장치가 입력 이미지의 종류를 판단하여 판단 결과에 따라 문자를 인식하는 과정을 나타내는 흐름도이다.
200단계에서 카메라부(10)는 입력 이미지를 캡쳐하고, 201단계에서 이미지 판단부(20)는 입력 이미지 내 관심 영역을 분석하여 입력 이미지의 종류를 판단한다. 예를 들어, 이미지 판단부(20)는 입력 이미지의 종류가 컴퓨터 화면을 촬영한 컴퓨터 화면 이미지인지 또는 그렇지 않은 이미지인지를 판단한다.
202단계에서 이미지 판단부(20)는 입력 이미지가 컴퓨터 화면 이미지인지를 판단하여 컴퓨터 화면 이미지인 경우 204단계를 진행하고, 그렇지 않은 경우 즉, 컴퓨터 화면 이미지가 아닌 경우 203단계로 진행하여 이진화부(40)가 입력 이미지를 이진화하여 이진화 이미지를 생성한다.
204단계에서 이미지 효과부(30)는 입력 이미지의 배경 영역과 문자 영역간의 색상 차이를 줄이기 위한 효과를 입력 이미지에 적용한다. 이때, 이러한 효과는 블러링(Bluring)과 같은 이미지 흐림 효과가 될 수 있다.
205단계에서 이진화부(40)는 이러한 효과가 적용된 입력 이미지를 이진화하여 이진화 이미지를 생성한다.
203단계 및 205단계에서 206단계로 진행한 문자 인식부(50)는 생성된 이진화 이미지로부터 문자 인식을 수행한다. 이때, 문자 인식은 OCR 방식을 이용할 수 있다.
207단계에서 결과 출력부(60)는 문자 인식된 결과를 출력한 후 문자 인식 과정을 종료한다.
이와 같이 본 발명은 입력 이미지가 디스플레이 화면을 촬영한 이미지인지 문서를 촬영한 이미지인지를 판단하여 디스플레이 화면을 촬영한 촬영 이미지에 포함된 문자를 정확하게 인식할 수 있다.
본 발명에서는 입력 이미지의 종류를 판단하는 이미지 판단부(20)의 동작에 대해서 도 3 및 도 4 내지 도 10을 이용하여 구체적으로 살펴보도록 한다. 본 발명의 실시 예에서는 이미지 판단부(20)가 DCT(Discrete Cosine Transform) 방법을 이용하여 이미지를 분석하는 것을 예로 설명하도록 한다.
도 3은 본 발명의 실시 예에 따른 이미지 판단부에서 입력 이미지의 종류를 판단하는 과정을 나타내는 흐름도이고, 도 4 내지 도 10은 본 발명의 실시 예에 따라 이미지 판단부에서 입력 이미지의 종류를 판단하는 과정을 설명하기 위한 예시도들이다.
도 3을 참조하면, 300단계에서 이미지 판단부(20)는 입력된 입력 이미지 내에서 이미지 의 종류를 분석하기 위해 미리 설정된 관심 영역을 선택한다. 예를 들어, 이미지 판단부(20)는 도 4와 같은 입력 이미지에서 미리 설정된 크기를 가지는 관심 영역(400)을 선택한다. 일반적으로 카메라 이미지의 해상도는 디스플레이 화면의 해상도보다 큰 경우가 많기 때문에, 관심 영역(400)은 도 5와 같이 격자무늬의 잡음이 형성되는 경우가 발생한다.
301단계에서 이미지 판단부(20)는 관심 영역(400)을 미리 설정된 크기의 분석 영역으로 분할한다. 예를 들어, 이미지 판단부(20)는 도 6과 같이 가로 8 × n(pixel), 세로 8 × m(pixel)(단, n, m은 자연수)의 관심 영역을 1열, 1행에 위치하는 미리 설정된 크기의 제1 분석 블록,..., i열, j행에 위치하는 미리 설정된 크기의 제 i 분석 블록,.., n열, m행에 위치하는 미리 설정된 크기의 제n 분석 블록으로 분할한다.
이와 같은 관심 영역의 크기는 본 발명의 실시 예와 같이 8×8 DCT 분석 블록의 배수로 설정할 수 있고, 기타 다른 DCT 분석 블록의 형태로도 적용될 수 있다. 또한, 관심 영역은 여러 개로 설정될 수도 있다.
302단계에서 이미지 판단부(20)는 분할된 복수의 분석 블록을 동일한 각 픽셀 위치에 대응되도록 중첩하여 하나의 대표 분석 블록을 생성한다. 구체적으로 이미지 판단부(20)는 도 7과 같이 제1 분석 블록,..., 제i 분석 블록,..., 제n 분석 블록의 동일한 위치의 각 픽셀들이 대응되도록 중첩하고, 도 8과 같은 하나의 대표 분석 블록을 생성한다. 이때, 이미지 판단부(20)는 제1 분석 블록의 a11 위치에 해당하는 픽셀과,..., 제i 분석 블록의 a11 위치에 해당하는 픽셀과,..., 제n 분석 블록의 a11 위치에 해당하는 픽셀을 대응시키고, 나머지 위치에 해당하는 픽셀들도 동일하게 대응시켜 중첩하여 하나의 대표 분석 블록을 생성한다.
303단계에서 이미지 판단부(20)는 생성된 대표 분석 블록 내 각 픽셀에 대한 대표 색상값을 산출한다. 구체적으로, 이미지 판단부(20)는 중첩된 제1 분석 블록,..., 제i 분석 블록,..., 제n 분석 블록 내 각 픽셀들에 대한 색상값의 총합을 도 8의 대표 분석 블록 내 각 픽셀들에 대한 대표 색상값으로 산출한다. 예를 들어, 도 8의 A11 위치에 해당하는 픽셀의 대표 색상값은 제1 분석 블록의 a11 위치에 해당하는 픽셀에 대한 색상값과,..., 제i 분석 블록의 a11 위치에 해당하는 픽셀에 대한 색상값과,..., 제n 분석 블록의 a11 위치에 해당하는 픽셀에 대한 색상값의 총합으로 나타낸다.
304단계에서 이미지 판단부(20)는 대표 분석 블록 내에서 최대 대표 색상값을 가지는 픽셀을 제외한 제1행의 위치에 해당하는 픽셀들과 제1열의 위치에 해당하는 픽셀들에 대한 제1 평균 대표 색상값을 산출한다. 이때, 제1행 및 제1열의 위치에 해당하는 픽셀들은 대표 분석 블록 내에서 상대적으로 큰 대표 색상값을 가지는 픽셀들이 위치한 행열에 포함된 픽셀들을 의미한다. 일반적으로 DCT 분석 방법이 적용된 디스플레이 화면 이미지는 도 9와 같이 관심 영역(400)의 특정 영역(900)과 같은 DCT 분석 패턴 블록들을 가진다. 이러한 DCT 분석 패턴 블록은 분석 블록에 해당되며, 일반적으로 도 8의 A11 위치의 픽셀과 같이 제1행, 제1열의 위치에 대응하는 픽셀이 최대 대표 색상값을 가진다.
다시 말해서, 이미지 판단부(20)는 도 10과 같이 A11 위치에 해당하는 픽셀을 제외한 A12, A13,..., A18(1000)에 해당하는 픽셀들과, A21, A31,..., A81(1001)에 해당하는 픽셀들에 대한 제1 평균 대표 색상값을 산출하는 것이다.
305단계에서 이미지 판단부(20)는 대표 분석 블록 내 나머지 픽셀들에 대한 제2 평균 대표 색상값을 산출한다. 구체적으로, 이미지 판단부(20)는 도 10의 A22, A23,..., A32, A33,..., A42, A43,..., A52, A53,..., A62, A63,..., A72, A73,..., A82, A83,..., A88(1002)에 해당하는 픽셀들에 대한 제2 평균 대표 색상값을 산출한다.
306단계에서 이미지 판단부(20)는 제1 평균 대표 색상값과 제2 평균 대표 색상값의 차이값이 미리 설정된 임계 색상값 이상인지를 판단하여 임계 색상값 이상이면 308단계를 진행하고, 그렇지 않으면 307단계에서 입력 이미지를 일반 이미지로 판단한다. 여기서, 미리 설정된 임계 색상값은 입력 이미지를 디스플레이 화면 이미지로 판단하기 위해서 미리 설정된 기준값을 의미한다.
308단계에서 이미지 판단부(20)는 입력 이미지를 컴퓨터 화면 이미지와 같은 디스플레이 화면 이미지로 판단한다.
309단계에서 이미지 판단부(20)는 판단 결과를 출력한 후 입력 이미지 판단 과정을 종료한다.
도 11은 본 발명의 실시 예에 따라 이미지 효과부에서 입력 이미지에 효과를 적용하는 과정을 설명하기 위한 예시도이다.
도 11을 참조하면, 이미지 효과부(30)는 문자 영역과 배경 영역간의 구분이 명확해지도록 하기 위해 입력 이미지(1100)에 블러링과 같은 흐림 효과를 적용한 효과 적용 이미지(1101)를 생성한다. 도 11과 같이 입력 이미지(1100)는 격자 무늬와 같은 노이즈 현상이 발생하기 때문에 문자 인식을 수행할 경우 문자 영역에 정확하게 인식되지 않을 수 있다. 이에 따라, 이미지 효과부(30)는 문자 영역과 배경 영역의 구분이 명확하도록 하기 위해서 문자 영역의 색상값과 배경 영역의 색상값에 대한 차이값이 미리 설정된 임계 차이값 이상이 되도록 이미지 흐림 효과를 적용한다. 효과가 적용된 이미지(1101)는 도 11과 같이 격자 무늬와 같은 노이즈 현상이 최소화되어 문자와 배경의 구분이 명확해짐을 알 수 있다. 이러한 효과가 적용된 이미지(1101)를 이진화부(40)를 통해서 이진화하면 도 11의 이진화 이미지(1102)가 생성되며, 생성된 이진화 이미지(1102)는 문자 영역이 명확하게 인식될 수 있도록 배경 영역과 뚜렷하게 구분된다.
도 12는 본 발명의 실시 예에 따라 결과 출력부에서 출력한 문자 인식 결과를 나타내는 예시도이다.
도 12와 같이 컴퓨터 화면을 촬영한 이미지(1200)가 입력된 경우 상기에서 설명한 과정을 통해 입력 이미지의 종류를 판단하고, 결과 출력부(60)가 판단 결과에 따른 문자 인식 방법을 이용한 문자 인식된 결과 이미지(1201)를 출력한다.
도 13은 본 발명의 실시 예에 따라 이미지 판단부에서 판단한 입력 이미지가 문서를 촬영한 이미지인 경우를 설명하기 위한 예시도이다.
도 13에 따르면, 이미지 판단부(20)는 입력 이미지(1300) 내에서 미리 설정된 관심 영역을 선택하고, 선택된 관심 영역을 분석하여 입력 이미지의 종류를 판단한다. 이때, 입력 이미지가 문서를 촬영한 이미지인 경우 관심 영역을 DCT 분선 방법으로 분석하면 1301와 같은 DCT 분석 패턴 블록들을 가진다.
이러한 DCT 분석 패턴 블록들을 분석하여 이미지 판단부(20)는 입력 이미지가 문서 촬영 이미지임을 판단할 수 있다.
이와 같이 본 발명은 입력 이미지가 디스플레이 화면을 촬영한 이미지인지 문서를 촬영한 이미지인지를 판단하여 디스플레이 화면을 촬영한 촬영 이미지에 포함된 문자를 정확하게 인식할 수 있다.
10: 카메라부
20: 이미지 판단부
30: 이미지 효과부
40: 이진화부
50: 문자 인식부
60: 결과 출력부

Claims (12)

  1. 촬영 이미지 기반의 문자 인식 장치에 있어서,
    입력 이미지가 입력되면 상기 입력 이미지 내에서 이미지 분석을 위한 관심 영역을 선택하고, 상기 선택된 관심 영역을 분석하여 상기 입력 이미지가 디스플레이 화면을 촬영한 디스플레이 화면 이미지인지를 판단하는 이미지 판단부와,
    상기 판단 결과 상기 입력 이미지가 디스플레이 화면 이미지인 경우 상기 입력 이미지에 상기 디스플레이 화면 이미지 내 문자 영역과 배경 영역을 구분하기 위한 이미지 효과를 적용하는 이미지 효과부와,
    상기 이미지 효과가 적용된 입력 이미지를 이진화하는 이진화부와,
    상기 이진화된 입력 이미지로부터 문자를 인식하는 문자 인식부를 포함하는 것을 특징으로 하는 문자 인식 장치.
  2. 제1항에 있어서, 상기 이미지 판단부는,
    상기 선택된 관심 영역을 미리 설정된 크기의 분석 블록으로 분리하고, 상기 분리된 분석 블록이 각 픽셀 위치에 동일하게 대응되도록 중첩하여 대표 분석 블록을 생성한 후 상기 대표 분석 블록을 구성하는 각 픽셀의 대표 색상값을 산출하고, 상기 산출된 각 대표 색상값을 이용하여 상기 입력 이미지를 분석하는 것을 특징으로 하는 문자 인식 장치.
  3. 제2항에 있어서, 상기 이미지 판단부는,
    상기 대표 분석 블록 내에서 최대 대표 색상값을 가지는 픽셀을 제외한 상기 대표 분석 블록 내에서 임계값보다 큰 대표 색상값을 가지는 픽셀들이 위치한 행열에 포함된 픽셀들에 대한 제1 평균 대표 색상값을 산출하고, 나머지 픽셀들에 대한 제2 평균 대표 값을 산출한 후 상기 제1 평균 대표 색상값과 상기 제2 평균 대표값을 비교하여 비교 결과에 따라 상기 입력 이미지의 종류를 판단하는 것을 특징으로 하는 문자 인식 장치.
  4. 제3항에 있어서, 상기 이미지 판단부는,
    상기 제1 평균 대표 색상값과 상기 제2 평균 대표값의 차이값이 미리 설정된 임계 색상값 이상인지를 판단하여 상기 임계 색상값 이상이면 상기 입력 이미지를 디스플레이 화면 이미지로 판단하고, 상기 임계 색상값 미만이면 상기 입력 이미지를 상기 디스플레이 화면 이미지가 아닌 이미지로 판단하는 것을 특징으로 하는 문자 인식 장치.
  5. 제4항에 있어서, 상기 이미지 효과부는,
    상기 입력 이미지가 상기 디스플레이 화면 이미지로 판단되면 상기 입력 이미지 내 문자 영역과 배경 영역간을 구분하기 위한 이미지 효과를 적용하는 것을 특징으로 하는 문자 인식 장치.
  6. 제5항에 있어서, 상기 이미지 효과부는,
    상기 입력 이미지 내 문자 영역의 색상값과 배경 영역의 색상값의 차이값이 미리 설정된 임계 차이값 이상이 되도록 상기 입력 이미지에 흐림 효과를 적용하는 것을 특징으로 하는 문자 인식 장치.
  7. 촬영 이미지 기반의 문자 인식 방법에 있어서,
    입력 이미지가 입력되면 상기 입력 이미지 내에서 이미지 분석을 위한 관심 영역을 선택하는 과정과,
    상기 선택된 관심 영역을 분석하여 상기 입력 이미지가 디스플레이 화면을 촬영한 디스플레이 화면 이미지인지 판단하는 과정과,
    상기 판단 결과 상기 디스플레이 화면 이미지인 경우 상기 입력 이미지에 상기 디스플레이 화면 내 문자 영역과 배경 영역을 구분하기 위한 이미지 효과를 적용하는 과정과,
    상기 이미지 효과가 적용된 입력 이미지를 이진화하는 과정과,
    상기 이진화된 입력 이미지로부터 문자를 인식하는 과정을 포함함을 특징으로 하는 문자 인식 방법.
  8. 제7항에 있어서, 상기 입력 이미지의 종류를 판단하는 과정은,
    상기 선택된 관심 영역을 미리 설정된 크기의 분석 블록으로 분리하는 과정과,
    상기 분리된 분석 블록이 각 픽셀 위치에 동일하게 대응되도록 중첩하여 대표 분석 블록을 생성하는 과정과,
    상기 대표 분석 블록을 구성하는 각 픽셀의 대표 색상값을 산출하는 과정과,
    상기 산출된 각 대표 색상값을 이용하여 상기 입력 이미지를 분석하는 과정을 포함함을 특징으로 하는 문자 인식 방법.
  9. 제8항에 있어서, 상기 산출된 각 대표 색상값을 이용하여 상기 입력 이미지를 분석하는 과정은,
    상기 대표 분석 블록 내에서 최대 대표 색상값을 가지는 픽셀을 제외한 상기 대표 분석 블록 내에서 임계값보다 큰 대표 색상값을 가지는 픽셀들이 위치한 행열에 포함된 픽셀들에 대한 제1 평균 대표 색상값을 산출하는 과정과,
    나머지 픽셀들에 대한 제2 평균 대표 값을 산출하는 과정과,
    상기 제1 평균 대표 색상값과 상기 제2 평균 대표값을 비교하여 비교 결과에 따라 상기 입력 이미지의 종류를 판단하는 과정을 포함함을 특징으로 하는 문자 인식 방법.
  10. 제9항에 있어서, 상기 제1 평균 대표 색상값과 상기 제2 평균 대표값을 비교하여 비교 결과에 따라 상기 입력 이미지의 종류를 판단하는 과정은,
    상기 제1 평균 대표 색상값과 상기 제2 평균 대표값의 차이값이 미리 설정된 임계 색상값 이상인지를 판단하는 과정과,
    상기 임계 색상값 이상이면 상기 입력 이미지를 디스플레이 화면 이미지로 판단하는 과정과,
    상기 임계 색상값 미만이면 상기 입력 이미지를 상기 디스플레이 화면 이미지가 아닌 이미지로 판단하는 과정을 포함함을 특징으로 하는 문자 인식 방법.
  11. 제10항에 있어서, 상기 이미지 효과를 적용하는 과정은,
    상기 입력 이미지가 상기 디스플레이 화면 이미지로 판단되면 상기 입력 이미지 내 문자 영역과 배경 영역간을 구분하기 위한 이미지 효과를 적용하는 과정임을 특징으로 하는 문자 인식 방법.
  12. 제11항에 있어서, 상기 문자 영역과 배경 영역간을 구분하기 위한 이미지 효과를 적용하는 과정은,
    상기 입력 이미지 내 문자 영역의 색상값과 배경 영역의 색상값의 차이값이 미리 설정된 임계 차이값 이상이 되도록 상기 입력 이미지에 흐림 효과를 적용하는 과정임을 특징으로 하는 문자 인식 방법.
KR1020110133502A 2011-12-13 2011-12-13 촬영 이미지 기반의 문자 인식 장치 및 방법 KR101907414B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020110133502A KR101907414B1 (ko) 2011-12-13 2011-12-13 촬영 이미지 기반의 문자 인식 장치 및 방법
US13/712,480 US9082039B2 (en) 2011-12-13 2012-12-12 Method and apparatus for recognizing a character based on a photographed image
EP12196829.1A EP2605186B1 (en) 2011-12-13 2012-12-12 Method and apparatus for recognizing a character based on a photographed image
CN201210539101.7A CN103198311B (zh) 2011-12-13 2012-12-13 基于拍摄的图像来识别字符的方法及装置
US14/738,096 US9235779B2 (en) 2011-12-13 2015-06-12 Method and apparatus for recognizing a character based on a photographed image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110133502A KR101907414B1 (ko) 2011-12-13 2011-12-13 촬영 이미지 기반의 문자 인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130066819A KR20130066819A (ko) 2013-06-21
KR101907414B1 true KR101907414B1 (ko) 2018-10-15

Family

ID=47561107

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110133502A KR101907414B1 (ko) 2011-12-13 2011-12-13 촬영 이미지 기반의 문자 인식 장치 및 방법

Country Status (4)

Country Link
US (2) US9082039B2 (ko)
EP (1) EP2605186B1 (ko)
KR (1) KR101907414B1 (ko)
CN (1) CN103198311B (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101992153B1 (ko) * 2012-11-13 2019-06-25 삼성전자주식회사 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법
KR20140102038A (ko) * 2013-02-13 2014-08-21 삼성전자주식회사 영상 정합 장치 및 영상 정합 방법
CN108132935B (zh) * 2016-11-30 2021-08-10 英业达科技有限公司 图像分类方法及图像展示方法
KR102387767B1 (ko) 2017-11-10 2022-04-19 삼성전자주식회사 사용자 관심 정보 생성 장치 및 그 방법
TWI671686B (zh) * 2018-01-24 2019-09-11 緯創資通股份有限公司 影像數據擷取方法及影像數據擷取裝置
WO2020077530A1 (en) * 2018-10-16 2020-04-23 Fresenius Medical Care Deutschland Gmbh Device and method for recognizing one or more characters
KR101950438B1 (ko) * 2018-11-12 2019-02-20 길재소프트 주식회사 관심영역에 대한 영상 차원 판별 방법 및 시스템
JP7313901B2 (ja) * 2019-05-21 2023-07-25 東芝テック株式会社 物品認識装置および物品認識方法
CN110647878A (zh) * 2019-08-05 2020-01-03 紫光西部数据(南京)有限公司 基于截屏图片的数据处理方法
TWI759669B (zh) * 2019-12-23 2022-04-01 中強光電股份有限公司 顯示畫面檢測方法與顯示畫面檢測系統

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100726473B1 (ko) * 2005-11-05 2007-06-19 주식회사 칼라짚미디어 이미지 분별 장치 및 그 방법
KR100977713B1 (ko) * 2003-03-15 2010-08-24 삼성전자주식회사 영상신호의 글자 인식을 위한 전처리 장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06176144A (ja) * 1992-12-07 1994-06-24 Ricoh Co Ltd 画像処理装置
US6873338B2 (en) * 2002-03-21 2005-03-29 International Business Machines Corporation Anti-moire pixel array having multiple pixel types
KR20050116224A (ko) * 2004-06-07 2005-12-12 삼성전자주식회사 배경영역 검출에 의한 문서의 타겟영역 추출 장치 및 그방법
KR20060030430A (ko) * 2004-10-05 2006-04-10 삼성전자주식회사 영상의 문자 영역 추출 장치 및 방법
JP4251643B2 (ja) * 2005-03-23 2009-04-08 株式会社カシオ日立モバイルコミュニケーションズ 画像撮像装置、および、プログラム
JP4355305B2 (ja) * 2005-06-13 2009-10-28 シャープ株式会社 画像処理装置、コンピュータプログラム、及び記録媒体
IT1390595B1 (it) * 2008-07-10 2011-09-09 Universita' Degli Studi Di Brescia Dispositivo di ausilio nella lettura di un testo stampato
KR20100011187A (ko) * 2008-07-24 2010-02-03 삼성전자주식회사 문자 인식 방법
JP2011047808A (ja) * 2009-08-27 2011-03-10 Hitachi Displays Ltd 画像測定方法および画像測定装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100977713B1 (ko) * 2003-03-15 2010-08-24 삼성전자주식회사 영상신호의 글자 인식을 위한 전처리 장치 및 방법
KR100726473B1 (ko) * 2005-11-05 2007-06-19 주식회사 칼라짚미디어 이미지 분별 장치 및 그 방법

Also Published As

Publication number Publication date
CN103198311A (zh) 2013-07-10
EP2605186A3 (en) 2014-08-27
KR20130066819A (ko) 2013-06-21
EP2605186A2 (en) 2013-06-19
EP2605186B1 (en) 2018-11-07
CN103198311B (zh) 2017-10-24
US9235779B2 (en) 2016-01-12
US20130148899A1 (en) 2013-06-13
US20150278630A1 (en) 2015-10-01
US9082039B2 (en) 2015-07-14

Similar Documents

Publication Publication Date Title
KR101907414B1 (ko) 촬영 이미지 기반의 문자 인식 장치 및 방법
US9684941B2 (en) Determining pose for use with digital watermarking, fingerprinting and augmented reality
US9241102B2 (en) Video capture of multi-faceted documents
US8867828B2 (en) Text region detection system and method
US7403656B2 (en) Method and apparatus for recognition of character string in scene image
US20100215261A1 (en) Apparatus and method for improving text recognition capability
KR100708130B1 (ko) 동영상 추출장치 및 방법
JP5701181B2 (ja) 画像処理装置、画像処理方法及びコンピュータプログラム
JP2011045078A (ja) カメラベースの文書画像処理のための適応的ボケ除去
CN110248177B (zh) 一种图像数据的处理方法及装置
JP2010211498A (ja) 画像処理プログラム及び画像処理システム
CN107085699B (zh) 信息处理设备、信息处理设备的控制方法和存储介质
US9361500B2 (en) Image processing apparatus, image processing method, and recording medium
CN104346596A (zh) 一种qr码的识别方法及识别装置
Joshi et al. First steps toward CNN based source classification of document images shared over messaging app
KR100726473B1 (ko) 이미지 분별 장치 및 그 방법
JP6789410B2 (ja) 画像処理装置、制御方法及び制御プログラム
CN107145883A (zh) 文本检测方法和设备
KR101498546B1 (ko) 문서 디지털 복원 시스템 및 방법
KR101048399B1 (ko) 문자 검출 방법 및 장치
JP6478282B2 (ja) 情報端末装置及びプログラム
Nwokoma et al. Camera-based OCR scene text detection issues: A review
KR100713335B1 (ko) 이미지 인식방법
CN112424794B (zh) 使用马赛克图像传感器检测高分辨率的机器可读标签
Kim et al. Document capturing method with a camera using robust feature points detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right