KR20160008407A - 문자 인식 장치 및 방법 - Google Patents

문자 인식 장치 및 방법 Download PDF

Info

Publication number
KR20160008407A
KR20160008407A KR1020140088574A KR20140088574A KR20160008407A KR 20160008407 A KR20160008407 A KR 20160008407A KR 1020140088574 A KR1020140088574 A KR 1020140088574A KR 20140088574 A KR20140088574 A KR 20140088574A KR 20160008407 A KR20160008407 A KR 20160008407A
Authority
KR
South Korea
Prior art keywords
document image
input
string
character
character recognition
Prior art date
Application number
KR1020140088574A
Other languages
English (en)
Inventor
김용탁
Original Assignee
주식회사 디오텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 디오텍 filed Critical 주식회사 디오텍
Priority to KR1020140088574A priority Critical patent/KR20160008407A/ko
Publication of KR20160008407A publication Critical patent/KR20160008407A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)

Abstract

본 발명은 문자 인식 방법에 관한 것으로서, 본 발명에 따른 문자 인식 방법은 문서 이미지를 디지털 형태로 획득하는 단계, 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신하는 단계, 문자열 배열 정보에 기초하여 문서 이미지의 왜곡을 보정하는 단계, 및 보정된 문서 이미지 내의 문자열의 전부 또는 일부에 대한 문자 인식을 수행하는 단계를 포함하며, 문자열 배열 정보는 문서 이미지에 대한 입력 방향을 포함한다. 본 발명의 문자 인식 방법은 문서 이미지 내의 문자열에 대한 문자 인식을 정확하게 수행할 수 있는 효과가 있다.

Description

문자 인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING CHARACTERS}
본 발명은 문자 인식 장치 및 방법에 관한 것으로서, 보다 상세하게는, 문서 이미지 내의 문자열에 대한 문자 인식을 정확하게 수행할 수 있는 문자 인식 장치 및 방법에 관한 것이다.
컴퓨터, 노트북, 스마트폰 (smartphone), 태블릿PC (tablet PC), 네비게이션 (navigation) 등과 같은 전자 장치의 사용자가 증가함에 따라, 이러한 전자 장치와 사용자가 쉽게 상호작용할 수 있게 하는 사용자 인터페이스 (user interface) 에 대한 중요성이 높아지고 있다.
다양한 사용자 인터페이스들 중 획득된 문서 이미지 내의 문자열에 대한 문자 인식을 수행하는 기술이 소개되었다. 예를 들어, 휴대폰 단말기에 장착된 카메라를 통해 문서 이미지를 촬영하여 저장하고, 저장된 문서 이미지에 대해 광학적 문자 인식 (OCR; Optical Character Recognition) 을 수행하는 기술이 소개되었다.
문서에서는 일반적으로 문자, 숫자, 부호, 도형 등의 문자열이 수평 방향으로 정렬되어 기재된다. 따라서, 일반적인 문자 인식 방법 역시 수평 방향으로 문자열이 정렬된 것으로 가정하고 문자 인식을 수행한다. 그러나, 문서 이미지를 획득하는 위치 및 원근감 등에 따라, 문자열이 특정 각도로 기울어져 있는 상태의 문서 이미지가 획득될 수도 있고, 문자열이 곡선 형태로 배치되어 있는 상태의 문서 이미지가 획득될 수도 있다. 이러한 경우에도, 일반적인 문자 인식 방법은 문자열이 수평 방향으로 정렬된 것으로 가정하고 문자 인식을 수행하므로 정확한 문자 인식을 수행하지 못하였다.
또한, 문서 이미지 내에서 문자열은 수평 방향으로 그리고 왼쪽에서 오른쪽 방향 순으로 정렬되어 있는 것이 일반적이지만, 문서 이미지의 종류 또는 문서 이미지 내의 문자열의 언어 종류에 따라서는, 문자열이 위에서 아래쪽으로 정렬되어 있기도 하고 오른쪽에서 왼쪽 방향으로 정렬되어 있을 수도 있다. 이러한 경우에도, 일반적인 문자 인식 방법은 문자열이 수평 방향으로 그리고 왼쪽에서 오른쪽 방향으로 정렬된 것으로 가정하고 문자 인식을 수행하여서 사용자가 원하는 적절한 문자 인식을 제공하지 못하였다.
이에, 문서 이미지 내의 문자열에 대한 문자 인식을 정확하게 수행할 수 있는 새로운 기술에 대한 개발이 요구되고 있는 실정이다.
본 발명이 해결하고자 하는 과제는 문서 이미지가 왜곡되어 획득된 경우에도 문서 이미지 내의 문자열에 대한 문자 인식을 분명하게 수행할 수 있는 문자 인식 장치 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 문서 이미지 내의 문서의 정렬 방향이 비-일반적인 경우에도 문서 이미지에 대한 문자 인식을 정확하게 수행할 수 있는 문자 인식 장치 및 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 다른 과제는 문서 이미지에 대한 문자 인식을 빠르고 효율적으로 수행할 수 있는 문자 인식 장치 및 방법을 제공하는 것이다.
본 발명의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 문자 인식 방법은, 문서 이미지를 디지털 형태로 획득하는 단계, 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신하는 단계, 문자열 배열 정보에 기초하여 문서 이미지의 왜곡을 보정하는 단계, 및 보정된 문서 이미지 내의 문자열의 전부 또는 일부에 대한 문자 인식을 수행하는 단계를 포함하며, 문자열 배열 정보는 문서 이미지에 대한 입력 방향을 포함한다.
본 발명의 다른 실시예에 따르면, 문자열 배열 정보를 수신하는 단계는, 사용자로부터 문서 이미지에 대한 드래그 입력을 수신하는 단계; 및 드래그 입력의 방향을 문자열 배열 정보로서의 입력 방향으로 결정하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시예에 따르면, 문서 이미지의 왜곡을 보정하는 단계는, 수평선에 대한 입력 방향의 각도를 점진적으로 변경하면서 문서 이미지 내의 실제의 문자열 배열 방향을 추출하는 단계; 및 문서 이미지 내의 실제의 문자열 배열 방향에 기초하여 문서 이미지의 왜곡을 보정하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시예에 따르면, 문서 이미지의 왜곡을 보정하는 단계는 문서 이미지 내의 문자열이 수평 방향으로 정렬되도록 문서 이미지를 보정하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시예에 따르면, 문서 이미지 내의 실제의 문자열 배열 방향을 추출하는 단계는, 히스토그램 기법 또는 레이블링 기법을 이용하여 수행될 수 있다.
본 발명의 또 다른 실시예에 따르면, 보정된 문서 이미지의 전부 또는 일부에 대한 문자 인식을 수행하는 단계는, 사용자로부터의 드래그 입력에 의해 선택된 문자열에 대한 문자 인식을 수행하는 단계를 포함할 수 있다.
본 발명의 또 다른 실시예에 따르면, 입력 방향은 제1 입력 방향 및 제1 입력 방향에 대해 일정 각도로 기울어진 제2 입력 방향을 포함할 수 있다.
본 발명의 또 다른 실시예에 따르면, 문자열 배열 정보는 제1 입력 방향으로 진행된 제1 입력 길이 및 제2 입력 방향으로 진행된 제2 입력 길이를 포함할 수 있다.
본 발명의 또 다른 실시예에 따르면, 문자열 배열 정보로부터 문서 이미지의 판독 순서를 추출하는 단계를 더 포함할 수 있다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 문자 인식 방법은, 문서 이미지를 디지털 형태로 획득하는 문서 이미지 획득부, 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신하는 문자열 배열 정보 수신부, 문자열 배열 정보에 기초하여 문서 이미지의 왜곡을 보정하는 왜곡 보정부, 및 보정된 문서 이미지 내의 문자열의 전부 또는 일부에 대한 문자 인식을 수행하는 문자 인식 수행부를 포함하며, 문자열 배열 정보는 문서 이미지에 대한 입력 방향을 포함한다.
전술한 바와 같은 과제를 해결하기 위하여 본 발명의 일 실시예에 따른 명령어 세트들을 저장하는 컴퓨터 판독가능매체는, 명령어 세트들은, 컴퓨팅 장치에 의해 실행되는 경우에 컴퓨팅 장치로 하여금, 문서 이미지를 디지털 형태로 획득하도록 하고, 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신하도록 하고, 문자열 배열 정보에 기초하여 문서 이미지의 왜곡을 보정하도록 하고, 그리고 보정된 문서 이미지 내의 문자열의 전부 또는 일부에 대한 문자 인식을 수행하도록 하며, 문자열 배열 정보는 문서 이미지에 대한 입력 방향을 포함한다.
기타 실시예의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명은 문서 이미지가 왜곡되어 획득된 경우에도 문서 이미지 내의 문자열에 대한 문자 인식을 분명하게 수행할 수 있는 효과가 있다.
본 발명은 문서 이미지 내의 문서의 정렬 방향이 비-일반적인 경우에도 문서 이미지에 대한 문자 인식을 정확하게 수행할 수 있는 효과가 있다.
본 발명은 문서 이미지에 대한 문자 인식을 빠르고 효율적으로 수행할 수 있는 효과가 있다.
본 발명에 따른 효과는 이상에서 예시된 내용에 의해 제한되지 않으며, 더욱 다양한 효과들이 본 명세서 내에 포함되어 있다.
도 1은 본 발명의 일 실시예에 따른 문자 인식 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른, 문서 이미지 내의 문자 인식 수행 방법에 관한 흐름도이다.
도 3a 내지 도 3e는 본 발명의 일 실시예에 따른, 문서 이미지 내의 문자를 인식하는 예시적인 모습을 도시한 것이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제 2 구성요소일 수도 있음은 물론이다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 여러 실시예들의 각각 특징들이 부분적으로 또는 전체적으로 서로 결합 또는 조합 가능하며, 당업자가 충분히 이해할 수 있듯이 기술적으로 다양한 연동 및 구동이 가능하며, 각 실시예들이 서로에 대하여 독립적으로 실시 가능할 수도 있고 연관 관계로 함께 실시 가능할 수도 있다.
본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터 또는 신호를 '전송'하는 경우에는 구성요소는 다른 구성요소로 직접 상기 데이터 또는 신호를 전송할 수 있고, 적어도 하나의 또 다른 구성요소를 통하여 데이터 또는 신호를 다른 구성요소로 전송할 수 있음을 의미한다.
이하, 첨부된 도면을 참조하여 본 발명의 다양한 실시예들을 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 문자 인식 장치의 블록도이다.
문자 인식 장치 (100) 는 문서 이미지 내에 포함된 문자에 대한 인식을 디지털 방식으로 수행할 수 있는 컴퓨팅 장치로서, 이미지 획득 기능을 구비한 구비한 컴퓨터, 노트북, 스마트폰, 태블릿 PC (tablet PC), 네비게이션 (navigation), PDA (personal digital assistant), PMP (portable media player), MP3 플레이어, 전자사전 등의 단말일 수 있다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 문자 인식 장치 (100) 는 문서 이미지 획득부 (110), 문자열 배열 정보 수신부 (120), 왜곡 보정부 (130) 및 문자 인식 수행부 (140) 를 포함한다. 도 1을 더 참조하면, 본 발명의 일 실시예에 따른 문자 인식 장치 (100) 는 제어부 (150), 통신부 (160) 및 메모리 (170) 를 더 포함할 수 있다.
문서 이미지 획득부 (110) 는 디지털 형태로 문서 이미지를 획득하는 역할을 수행할 수 있다. 문서 이미지 획득부 (110) 는 전하 결합 소자를 사용하여 문서 이미지를 디지털 형태의 전기 신호로 획득하는 범용적인 CCD 카메라일 수 있으나, 반드시 이에 한정되지는 않는다. 문서 이미지 획득부 (110) 에서 획득된 문서 이미지는 디지털 형태로 메모리 (170) 에 저장될 수 있다.
여기서, 문서 이미지는 문자, 숫자, 부호, 도형 등이 기재된 서류 및 기록물에 대한 이미지를 의미하며, 바람직하게는 문자, 숫자, 부호, 도형 등이 수평 방향으로 그리고 왼쪽에서 오른쪽 방향으로 정렬되어 기재된 일반적인 문서에 대한 이미지를 의미할 수 있다.
문자열 배열 정보 수신부 (120) 는 문서 이미지 획득부 (110) 에 의해 획득된 문서 이미지에 대한 문자열 배열 정보를 수신하는 역할을 수행할 수 있다. 사용자로부터 문자열 배열 정보를 수신하는 방식은 특별하게 한정되지 않으며, 바람직하게는 사용자의 특정 방향으로의 드래그 입력으로 문자열 배열 정보를 수신할 수 있다.
여기서, 문자열 배열 정보는 문서 이미지 내에서 문자, 숫자, 부호, 도형 등으로 이루어진 문자열이 어떠한 형태로 배열되었는지에 관한 정보로서, 사용자에 의해 제공되는 정보를 지칭한다. 문자열 배열 정보는 기본적으로 문서 이미지 내의 시작 지점에서 종료 지점으로의 입력 방향을 포함한다. 또한, 문자열 배열 정보는 문서 이미지 내의 시작 지점에서 종료 지점으로의 입력 길이를 더 포함할 수 있다.
왜곡 보정부 (130) 는 사용자로부터 입력된 문자열 배열 정보에 기초하여 문서 이미지의 왜곡을 보정할 수 있다. 보정된 문서 이미지는 바람직하게는 수평 방향으로 문자열이 정렬된 형태를 가질 수 있다. 문서 이미지의 왜곡을 보정하기 위해 왜곡 보정부 (130) 는 레이블링 기법 또는 히스토그램 기법을 이용할 수 있으나, 반드시 이에 한정되는 것은 아니다.
문자 인식 수행부 (140) 는 보정된 문서 이미지의 일부 또는 전부에 대한 문자 인식을 수행할 수 있다. 이를 위해서, 문자 인식 수행부 (140) 는 문서 이미지에 대한 문자 인식을 수행하기 위해서 문서 이미지 내의 문자열에 광을 조사하여 반사 광선을 전기 신호로 획득하는 광학적 문자 인식 (Optical Character Reader; OCR) 기술을 이용할 수 있다.
제어부 (150) 는 문서 이미지 획득부 (110), 문자열 배열 정보 수신부 (120), 왜곡 보정부 (130) 및 문자 인식 수행부 (140), 통신부 (160) 및 메모리 (170) 의 데이터의 흐름을 제어하는 기능을 수행한다. 제어부 (150) 는 외부로부터의 또는 문자 인식 장치 (100) 의 각 구성요소 간의 데이터의 흐름을 제어함으로써, 문서 이미지 획득부 (110), 문자열 배열 정보 수신부 (120), 왜곡 보정부 (130) 및 문자 인식 수행부 (140), 통신부 (160) 및 메모리 (170) 에서 각각 고유 기능이 수행되도록 제어한다.
통신부 (160) 는 문자 인식 장치 (100) 가 외부 장치와 통신할 수 있도록 하는 기능을 수행한다.
메모리 (170) 에는 문서 이미지 획득부 (110) 에 의해 획득된 문서 이미지가 저장되거나, 왜곡 보정부 (130) 에 의해 보정된 문서 이미지가 저장될 수 있다. 메모리 (170) 는 램 (RAM; random access memory), 롬 (ROM; read-only memory), 자기 디스크 (magnetic disk) 장치, 광 디스크 (optical disk) 장치, 플래시 메모리 등을 포함할 수 있으나, 반드시 이에 제한되는 것은 아니다.
한편, 도 1에는 도시되지 않았으나, 문자 인식 장치 (100) 는 사용자로부터의 터치 입력이 가능하도록, 터치 입력을 검출하는 터치 스크린 디스플레이를 포함할 수 있다.
또한, 전술한 구성들은 설명의 편의를 위해 별개의 구성으로 도시, 설명되었으나, 구현에 있어 각각의 구성이 병합되거나 하나의 구성이 그 이상의 구성으로 분리되어 구현될 수 있다.
도 2는 본 발명의 일 실시예에 따른, 문서 이미지 내의 문자 인식 수행 방법에 관한 흐름도이다.
먼저, 문서 이미지가 디지털 형태로 획득된다 (S210).
문서 이미지를 획득하기 위해서 이미지를 디지털 형태로 획득할 수 있는 본 기술분야에서 널리 알려진 다양한 방법을 이용할 수 있다.
다음으로, 디지털 형태로 획득된 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신한다 (S220).
문자열 배열 정보를 수신하는 단계는, 사용자로부터 문서 이미지에 대한 드래그 입력을 수신하고 이러한 드래그 입력으로부터 문자열 배열 정보를 추출하는 단계를 포함할 수 있다. 사용자로부터의 드래그 입력은 문자 인식 장치 (100) 가 터치 스크린 디스플레이로 구현되는 경우 터치 입력을 통해 이루어질 수 있으며, 마우스와 같은 외부 입력 장치를 통해 이루어질 수도 있다.
드래그 입력은 필연적으로 드래그 입력이 시작되는 시작 지점과 드래그 입력이 종료되는 종료 지점을 가진다. 따라서, 사용자로부터의 드래그 입력의 시작 지점과 종료 지점을 연결하면 수평선에 대해 특정한 각도를 가지는 특정한 하나의 방향이 설정되며, 이러한 드래그 입력 방향이 문자열 배열 정보로서의 입력 방향으로 결정될 수 있다.
구현 방법에 따라서는, 드래그 입력은 두 개 이상의 방향을 가질 수도 있다. 예를 들어, 드래그 입력은 시작 지점에서 중간 지점으로 진행된 후에 중간 지점에서 다시 종료 지점으로 진행될 수 있다. 이러한 경우에, 드래그 입력 방향은 시작 지점에서 중간 지점까지의 제1 입력 방향 및 중간 지점에서 종료 지점까지의 제2 입력 방향을 가질 수 있고, 제1 입력 방향 및 제2 입력 방향 모두가 문자열 배열 정보로서 결정될 수 있다.
드래그 입력이 두 개 이상의 방향을 가지는 경우에 드래그 입력 길이 역시 문자열 배열 정보로 결정될 수 있다. 예를 들어, 사용자로부터 제1 입력 방향으로 제1 입력 길이만큼 드래그 입력이 수행되고, 이어서 제1 입력 방향에 대해 일정 각도로 기울어진 제2 입력 방향으로 제2 입력 길이만큼 드래그 입력이 수행되는 경우에, 제1 입력 방향 및 제2 입력 방향뿐만 아니라 제1 입력 길이 및 제2 입력 길이 역시 문자열 배열 정보로 결정될 수 있다.
드래그 입력이 두 개 이상의 방향을 가지는 경우로서는, 이를 테면, 문서 이미지가 곡선 형태로 왜곡되었다는 사용자의 판단이 개입되는 경우를 들 수 있다.
다음으로, 문자열 배열 정보에 기초하여 문서 이미지의 왜곡을 보정한다 (S230).
상술한 바와 같이, 일반적인 문자 인식 방법은 수평 방향으로 문자열이 정렬된 것으로 가정하고 문자 인식을 수행하므로, 문서 이미지 내의 문자열이 특정 각도로 기울어져 있거나 곡선 형태로 배치되어 있는 경우에 정확한 문자 인식을 수행하지 못하였다.
그러나, 본 발명에서는 문서 이미지 내의 문자열에 대한 문자 인식을 수행하기에 앞서, 문서 이미지 내의 문자열이 특정 방향 (예를 들어, 수평 방향) 으로 정렬되도록 문서 이미지에 대한 보정을 수행하고, 이렇게 보정된 문서 이미지에 대해서 문자 인식을 수행하므로 문서 이미지에 대해 보다 정확한 문자 인식을 수행할 수 있다.
문서 이미지의 왜곡을 보정하여 문서 이미지 내의 문자열을 수평 방향으로 정렬시키기 위해, 본 발명에서는 사용자로부터 입력된 문자열 배열 정보를 이용한다. 예를 들어, 사용자로부터 입력된 문자열 배열 정보가 특정 입력 방향인 경우에, 이러한 특정 입력 방향을 기준 방향으로 설정하고 기준 방향에서부터 문서 이미지 내에서 실제로 문자열이 어떠한 방향으로 배열되어 있는지 검출한 이후에, 검출된 실제의 문자열 배열 방향에 기초하여 문서 이미지 내의 문자열을 수평 방향으로 정렬시킬 수 있다.
이때에, 사용자로부터 입력된 수평선에 대해 특정 각도로 기울어진 드래그 입력 방향을 기준으로, 이러한 특정 각도를 점진적으로 변경하면서 문서 이미지 내의 실제의 문자열 배열 방향을 추출할 수 있다. 예를 들어, 사용자가 수평선에 대해 20°의 각도로 드래그 입력을 수행한 경우 20°에서부터 ± 0.1°씩 각도를 점진적으로 변경하면서 문서 이미지 내의 실제의 문자열 배열 방향을 추출할 수 있다.
문서 이미지 내에서 실제로 문자열이 어떠한 방향으로 배열되어 있는지 검출하기 위해 히스토그램 또는 레이블링 기법이 이용될 수 있다. 히스토그램 기법은 복수의 가로 및 세로 방향으로 배치된 유색 화소들의 수를 도식화하여 나타내는 기법을 의미할 수 있다. 그리고, 레이블링 기법은 문서 이미지 내에서 인접한 유색 화소들에 대해 특정 번호를 부여하는 기법을 의미할 수 있다. 이러한 레이블링 또는 히스토그램 기법으로 문서 이미지 내의 문자열 배열 방향을 결정할 때에, 사용자로부터 입력된 문자열 배열 정보는 기준이 되는 정보로서 활용될 수 있다.
문자열 배열 방향을 검출하는 기법, 이를 테면 히스토그램 또는 레이블링 기법을 이용하여 문자열 배열 방향을 검출하는 경우 일반적으로는 아무런 정보도 주어지지 않기 때문에 특정 방향, 이를 테면 수평 방향에서부터 시작하여 다른 방향으로 문자열이 실제로 배열되었는지 검출할 수 밖에 없다. 그러나, 본 발명에서는 사용자로부터 입력된 문자열 배열 방향을 기준으로 실제의 문자열 배열 방향을 검출할 수 있기 때문에, 시간 효율적으로 실제의 문자열 배열 방향을 검출해내고 이를 기초로 문서 이미지의 왜곡을 보정할 수 있다.
문서 이미지가 곡선 형태로 왜곡되어 있어 사용자에 의해 두 개 이상의 방향의 드래그 입력을 받은 경우에는 이러한 두 개 이상의 드래그 입력 방향 및 두 개의 이상의 드래그 입력 길이를 기준으로 문서 이미지의 왜곡을 보정할 수 있다. 예를 들어, 사용자로부터 제1 입력 방향으로 제1 입력 길이만큼 드래그 입력이 수행되고, 이어서 제2 입력 방향으로 제2 입력 길이만큼 드래그 입력이 수행되는 경우에, 이미지가 제1 입력 방향으로 제1 입력 길이만큼 기울어지다가 제2 입력 방향으로 제2 입력 길이만큼 기울어지는 것으로 가정하고, 이러한 문자열 배열 정보들을 기준으로 문서 이미지 내의 실제의 문자열 배열 방향을 검출한 이후에, 검출된 실제의 문자열 배열 방향을 기초로 문서 이미지의 왜곡을 보정할 수 있다.
문서 이미지의 왜곡을 보정하기 위해서, 본 기술분야에서 알려진 공지의 이미지 왜곡 보정 방법이 이용될 수 있다. 예를 들어, 특정 각도만큼 기울어진 문서 이미지를 문자열이 수평 방향으로 정렬된 이미지로 보정하기 위해서, 특정 각도만큼 시계 반대방향으로 회전시키는 방법 등이 이용될 수 있다.
다음으로, 문자열 배열 정보로부터 문서 이미지 내의 판독 순서를 결정할 수 있다 (S240).
예를 들어, 사용자로부터 왼쪽에서 오른쪽으로 드래그 입력이 이루어진 경우에는 문서 이미지 내의 판독 순서는 왼쪽에서 오른쪽 방향으로 결정될 수 있고, 사용자로부터 오른쪽에서 왼쪽으로 드래그 입력이 이루어진 경우에는 문서 이미지 내의 판독 순서는 오른쪽에서 왼쪽 방향으로 결정될 수 있다. 또한, 사 사용자로부터 위쪽에서 아래쪽으로 드래그 입력이 이루어진 경우에는 문서 이미지 내의 판독 순서는 위쪽에서 아래쪽 방향으로 결정될 수도 있다
다음으로, 보정된 문서 이미지의 전부 또는 일부에 대한 문자 인식을 수행한다 (S250).
이때에, 상술한 바와 같이, 광학적 문자 인식 방법이 이용될 수 있다.
그리고, 문서 이미지의 전부에 대한 문자 인식을 수행할 것인지 또는 문서 이미지의 일부에 대한 문자 인식을 수행할 것인지 여부는 사용자에 의해 미리 설정될 수 있다. 문서 이미지의 일부에 대한 문자 인식을 수행하는 경우 문서 이미지 중 문자 인식이 수행될 문자열에 대한 선택이 사용자로부터 이루어질 수 있다. 예를 들어, 드래그 입력이 이루어진 문서 이미지 내의 시작 지점에서부터 종료 지점까지의 문자열에 대해서만 문자 인식을 수행할 수도 있다.
도 3a 내지 도 3e는 본 발명의 일 실시예에 따른, 문서 이미지 내의 문자를 인식하는 예시적인 모습을 도시한 것이다.
먼저, 도 3a를 참조하면, 문자 인식 장치 (310) 에서 문서 이미지 (320) 를 획득할 수 있다. 도 3a에 도시된 바와 같이, 문서 이미지 (320) 는 약 10°만큼 기울어져 획득될 수 있다.
다음으로, 도 3b를 참조하면, 사용자로부터 문서 이미지 (320) 에 대한 드래그 입력이 수신된다. 도 3b에 도시된 바와 같이, 사용자로부터의 드래그 입력은 제1 지점 (330) 에서부터 제2 지점 (340) 까지 수행되었으며, 제1 지점 (330) 에서 제2 지점 (340) 까지를 연결한 방향은 수평선에 대해 약 11°만큼 기울어져 있다.
다음으로, 도 3c를 참조하면, 사용자로부터 입력된 드래그 입력 방향에서부터 ± 0.1°만큼 각도를 점진적으로 변경하면서 문서 이미지 (310) 에 대한 Y축 히스토그램 (350) 을 추출한다. 도 3d에 도시된 바와 같이, 문자열이 수평 방향으로 정렬된 일반 문서 이미지에 대해 수평 방향으로 투영한 기준 Y축 히스토그램 (360) 은 각진 형태를 갖는다. 히스토그램의 투영 방향의 각도를 ± 0.1°만큼 점진적으로 변경하면서 Y축 히스토그램을 추출하고, 이러한 Y축 히스토그램 중 기준 Y축 히스토그램 (360) 과 가장 유사한 형태를 갖는 각도의 Y 축 히스토그램을 선별한다. 도 3a에 도시된 바와 같이, 문서 이미지 (320) 는 10°만큼 기울어져 있으므로, 11°에서 ± 0.1°만큼씩 투영 각도를 변경하면, 대략적으로 20회의 각도 변경을 수행한 이후에 기준 Y축 히스토그램 (360) 과 가장 유사한 형태를 갖는 Y축 히스토그램을 추출할 수 있고, 이러한 Y축 히스토그램의 각도가 11°임을 알 수 있다. 즉, 문서 이미지 (320) 내에서 문자열이 11°의 각도로 기울어져 배열되어 있음을 알 수 있다.
다음으로, 도 3e를 참조하면, 문서 이미지 (320) 의 왜곡을 보정할 수 있다. 문서 이미지 (320) 내의 문자열이 11°의 각도로 기울어져 배열되어 있음을 확인하였으므로, 문서 이미지 (320) 를 11°의 각도만큼 시계 반대 방향으로 회전시켜, 보정된 문서 이미지 (370) 를 획득할 수 있다.
다음으로, 도 3e를 더 참조하면, 보정된 문서 이미지 (370) 내의 문자열에 대한 문자 인식을 수행할 수 있다. 구체적으로, 사용자로부터 제1 지점 (330) 에서부터 제2 지점 (340) 까지 드래그 입력이 수행된 점을 기초로, 제1 지점 (330) 에서 제2 지점 (340) 으로의 방향을 문자 인식의 판독 순서로서 결정하고, 제1 지점 (330) 에서부터 제2 지점 (340) 까지의 문자열인 “감성 인식 기술” 에 대해서만 문자 인식을 수행하여 그 결과 (380) 를 출력할 수 있다.
이러한 실시예로부터 확인할 수 있듯이, 본 발명의 문자 인식 방법은 사용자에 의해 수행되는 간단한 입력을 통해, 문서 이미지가 왜곡된 경우에도 문자 인식을 정확하게 수행할 수 있고, 문서 이미지의 왜곡 정도를 신속하게 (위 실시예에서는 약 20회만큼의 탐색 시도만으로) 파악하여 문서 이미지에 대한 문자 인식을 빠르게 수행할 수 있다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
본 명세서에서, 각 블록은 특정된 논리적 기능 (들) 을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실행 예들에서는 블록들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서에 의해 실행되는 하드웨어, 소프트웨어 모듈 또는 그 2 개의 결합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링 되며, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로 (ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
이상으로 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것은 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 문자 인식 장치
110: 문서 이미지 획득부
120: 문자열 배열 정보 수신부
130: 왜곡 보정부
140: 문자 인식 수행부
150: 제어부
160: 통신부
170: 메모리
310: 문자 인식 장치
320: 문서 이미지
330: 제1 지점
340: 제2 지점
350: Y축 히스토그램
360: 기준 Y축 히스토그램
370: 보정된 문서 이미지
380: 문서 인식 수행 결과

Claims (11)

  1. 문서 이미지를 디지털 형태로 획득하는 단계;
    상기 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신하는 단계;
    상기 문자열 배열 정보에 기초하여 상기 문서 이미지의 왜곡을 보정하는 단계; 및
    보정된 상기 문서 이미지 내의 문자열의 전부 또는 일부에 대한 문자 인식을 수행하는 단계를 포함하며,
    상기 문자열 배열 정보는 상기 문서 이미지에 대한 입력 방향을 포함하는, 문자 인식 방법.
  2. 제1 항에 있어서,
    상기 문자열 배열 정보를 수신하는 단계는,
    사용자로부터 상기 문서 이미지에 대한 드래그 입력을 수신하는 단계; 및
    상기 드래그 입력의 방향을 상기 문자열 배열 정보로서의 상기 입력 방향으로 결정하는 단계를 포함하는, 문자 인식 방법.
  3. 제1 항에 있어서,
    상기 문서 이미지의 왜곡을 보정하는 단계는, 수평선에 대한 상기 입력 방향의 각도를 점진적으로 변경하면서 상기 문서 이미지 내의 실제의 문자열 배열 방향을 추출하는 단계; 및
    상기 문서 이미지 내의 실제의 문자열 배열 방향에 기초하여 상기 문서 이미지의 왜곡을 보정하는 단계를 포함하는, 문자 인식 방법.
  4. 제3 항에 있어서,
    상기 문서 이미지의 왜곡을 보정하는 단계는 상기 문서 이미지 내의 문자열이 수평 방향으로 정렬되도록 상기 문서 이미지를 보정하는 단계를 포함하는, 문자 인식 방법.
  5. 제3 항에 있어서,
    상기 문서 이미지 내의 실제의 문자열 배열 방향을 추출하는 단계는, 히스토그램 기법 또는 레이블링 기법을 이용하여 수행되는, 문자 인식 방법.
  6. 제2 항에 있어서,
    보정된 상기 문서 이미지의 전부 또는 일부에 대한 문자 인식을 수행하는 단계는, 사용자로부터의 드래그 입력에 의해 선택된 문자열에 대한 문자 인식을 수행하는 단계를 포함하는, 문자 인식 방법.
  7. 제1 항에 있어서,
    상기 입력 방향은 제1 입력 방향 및 상기 제1 입력 방향에 대해 일정 각도로 기울어진 제2 입력 방향을 포함하는, 문자 인식 방법.
  8. 제7 항에 있어서,
    상기 문자열 배열 정보는 상기 제1 입력 방향으로 진행된 제1 입력 길이 및 상기 제2 입력 방향으로 진행된 제2 입력 길이를 포함하는, 문자 인식 방법.
  9. 제1 항에 있어서,
    상기 문자열 배열 정보로부터 상기 문서 이미지의 판독 순서를 추출하는 단계를 더 포함하는, 문자 인식 방법.
  10. 문서 이미지를 디지털 형태로 획득하는 문서 이미지 획득부;
    상기 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신하는 문자열 배열 정보 수신부;
    상기 문자열 배열 정보에 기초하여 상기 문서 이미지의 왜곡을 보정하는 왜곡 보정부; 및
    보정된 상기 문서 이미지 내의 문자열의 전부 또는 일부에 대한 문자 인식을 수행하는 문자 인식 수행부를 포함하며,
    상기 문자열 배열 정보는 상기 문서 이미지에 대한 입력 방향을 포함하는, 문자 인식 장치.
  11. 명령어 세트들을 저장하는 컴퓨터 판독가능매체로서,
    상기 명령어 세트들은, 컴퓨팅 장치에 의해 실행되는 경우에 상기 컴퓨팅 장치로 하여금,
    문서 이미지를 디지털 형태로 획득하도록 하고,
    상기 문서 이미지에 대한 문자열 배열 정보를 사용자로부터 수신하도록 하고,
    상기 문자열 배열 정보에 기초하여 상기 문서 이미지의 왜곡을 보정하도록 하고, 그리고
    보정된 상기 문서 이미지 내의 문자열의 전부 또는 일부에 대한 문자 인식을 수행하도록 하며,
    상기 문자열 배열 정보는 상기 문서 이미지에 대한 입력 방향을 포함하는, 컴퓨터 판독가능 매체.
KR1020140088574A 2014-07-14 2014-07-14 문자 인식 장치 및 방법 KR20160008407A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140088574A KR20160008407A (ko) 2014-07-14 2014-07-14 문자 인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140088574A KR20160008407A (ko) 2014-07-14 2014-07-14 문자 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20160008407A true KR20160008407A (ko) 2016-01-22

Family

ID=55308918

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140088574A KR20160008407A (ko) 2014-07-14 2014-07-14 문자 인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20160008407A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101878256B1 (ko) * 2016-12-15 2018-07-13 서울대학교산학협력단 문자를 포함하는 영상의 평활화 방법 및 장치
CN114145638A (zh) * 2021-10-19 2022-03-08 深圳拓邦股份有限公司 一种胶囊咖啡自适应冲泡方法及胶囊咖啡机

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101878256B1 (ko) * 2016-12-15 2018-07-13 서울대학교산학협력단 문자를 포함하는 영상의 평활화 방법 및 장치
CN114145638A (zh) * 2021-10-19 2022-03-08 深圳拓邦股份有限公司 一种胶囊咖啡自适应冲泡方法及胶囊咖啡机

Similar Documents

Publication Publication Date Title
KR102147935B1 (ko) 데이터 처리 방법 및 그 전자 장치
US10438086B2 (en) Image information recognition processing method and device, and computer storage medium
KR102402148B1 (ko) 전자 장치 및 그의 문자 인식 방법
CN111353501A (zh) 一种基于深度学习的书本点读方法及系统
US10317777B2 (en) Automatic zooming method and apparatus
US10291843B2 (en) Information processing apparatus having camera function and producing guide display to capture character recognizable image, control method thereof, and storage medium
CN106557770B (zh) 通过比较贝塞尔曲线来标识图像中的形状
CN108694400B (zh) 信息处理装置、其控制方法及存储介质
CN110431563B (zh) 图像校正的方法和装置
CN111709414A (zh) Ar设备及其文字识别方法、装置和计算机可读存储介质
US10452943B2 (en) Information processing apparatus, control method of information processing apparatus, and storage medium
US9443138B2 (en) Apparatus and method for recognizing hand shape using finger pattern
JP2018124918A (ja) 画像処理装置、画像処理方法及びプログラム
KR20160008407A (ko) 문자 인식 장치 및 방법
US10134138B2 (en) Information processing apparatus, computer-readable storage medium, information processing method
US10037137B2 (en) Directing input of handwriting strokes
CN105631850B (zh) 对齐多视图扫描
KR20160053544A (ko) 후보 문자의 추출 방법
KR101761641B1 (ko) 엣지 라인을 검출하여 분할선을 획득하는 장치 및 방법
US10877641B2 (en) Image adjustment method, apparatus, device and computer readable storage medium
JP2017120455A (ja) 情報処理装置、プログラム及び制御方法
CN108769527B (zh) 场景识别方法、装置及终端设备
CN112580638A (zh) 文本检测方法、装置、存储介质及电子设备
JP5223739B2 (ja) 携帯式文字認識装置、文字認識プログラム及び文字認識方法
US20170277944A1 (en) Method and electronic device for positioning the center of palm

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid