KR20140061033A - 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법 - Google Patents

문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법 Download PDF

Info

Publication number
KR20140061033A
KR20140061033A KR1020120128147A KR20120128147A KR20140061033A KR 20140061033 A KR20140061033 A KR 20140061033A KR 1020120128147 A KR1020120128147 A KR 1020120128147A KR 20120128147 A KR20120128147 A KR 20120128147A KR 20140061033 A KR20140061033 A KR 20140061033A
Authority
KR
South Korea
Prior art keywords
image
document
feature
classification
pixels
Prior art date
Application number
KR1020120128147A
Other languages
English (en)
Other versions
KR101992153B1 (ko
Inventor
김무림
권무식
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020120128147A priority Critical patent/KR101992153B1/ko
Priority to EP13192659.4A priority patent/EP2731054B1/en
Priority to US14/079,156 priority patent/US9628660B2/en
Priority to CN201310572149.2A priority patent/CN103810471B/zh
Publication of KR20140061033A publication Critical patent/KR20140061033A/ko
Application granted granted Critical
Publication of KR101992153B1 publication Critical patent/KR101992153B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/21Intermediate information storage
    • H04N1/2166Intermediate information storage for mass storage, e.g. in document filing systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

본 발명은 문서 영상 인식 방법에 있어서; 입력 영상에서 각 픽셀별로 해당 픽셀과 미리 설정된 거리만큼 떨어진 주변 지점들의 비교 픽셀들과의 비교를 통해 비교 픽셀들과 유사하지 않은 픽셀을 특징점으로 판단하여 특징점들에 대한 정보를 포함하는 1차 특징을 추출하는 과정과; 1차 특징에 대해 특징점들의 총 개수에 대한 기준을 포함하는 미리 설정된 1차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 과정을 수행한다.

Description

문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법{METHOD AND APPARATUS FOR RECOGNIZING TEXT IMAGE AND PHOTOGRAPHY METHOD USING THE SAME}
본 발명은 디지털 카메라와 같은 촬영 장치를 통해 촬영하는 영상을 분석하는 기술에 관한 것으로서, 특히, 촬영 영상에서 문서 영상(text image)을 인식하는 방법, 장치 및 이를 이용한 사진 촬영 방법에 관한 것이다.
최근 들어, 스마트폰, 핸드폰, PMP(Portable Multimedia Player), MP3 플레이어, 개인용 네비게이션 기기 등과 같은 휴대용 단말기에는 편리성을 높이기 위해, 통상적인 디지털 카메라, 캠코더 등에 적용되는 DSC(Digital Still Camera) 기능이 거의 필수적인 요소로 채용되고 있다.
사용자는 이러한 휴대용 단말기를 이용하여 언제 어디서나 간단히 사진 촬영을 할 수 있게 되었다. 최근에는 휴대용 단말기에 장착되는 카메라의 성능 및 컨텐츠 저장 용량의 비약적인 증가로 인해, 사용자는 통상적인 인물, 풍경 등의 촬영 외에도, 도서, 서류, 팜플렛 등과 같이 문자를 주로 포함하는 인쇄물을 촬영하고 해당 인쇄물을 촬영한 영상(이하 '문서 영상'이라 칭함)을 저장함으로써, 해당 인쇄물에 기록된 정보를 보관하는 용도로도 카메라를 활용하고 있다.
이러한 추세에 맞추어, 종래 기술에서는 카메라 촬영시 현재 촬영하려는 영상이 문서 영상인지를 확인하고, 그에 따라 조리개 등과 같은 촬영 조건을 적절히 자동으로 조정해 주는 기술이 제안되었다. 이 기술은 'Hewlett-Packard Development Company'의 미국 특허번호 제7,053,939호(명칭: "Automatic document detection method and system", 발명자: 'Qian Lin' 외 2명, 특허일: 2006년 5월 30일)에 개시된 바를 예로 들 수 있다.
상기 종래 기술에서는 문서 영상의 검출을 위해서, 문서 영상에는 문자 표시에 의해 비교적 에지 부분이 많다는 점에 착안하여, 카메라를 통해 입력된 영상을 균일한 크기의 영역들로 나누고, 각 영역별로 에지를 검출한 후, 각 영역에 대해서 에지의 개수가 주어진 문턱치보다 많은지 판단한다. 에지의 개수가 문턱치보다 많은 영역들의 총 개수가 특정 기준치를 넘을 경우 해당 영상을 문서 영상으로 판단한다.
그런데, 상기 종래 기술과 같은 방식은 문서 영상에 대해 어느 정도 정확한 판단이 가능할 수 있으나, 복잡한 무늬 등이 있는 영상과 같이, 에지의 개수가 많은 영상에 대해서 오판할 가능성이 많았다. 더욱이, 글자 크기가 크거나 글자 수가 적으며, 다양한 크기 또는 폰트가 혼재한 문서, 또는, 버스 시간표, 메뉴표, 일정표와 같이, 표와 함께 표시된 문서 등에 대해서는 해당 영상을 문서 영상으로 정확하게 판단하기 어려웠다.
이에 따라, 현재 도서나, 서류 등과 같은 전형적인 문서 영상외에도, 일상 생활에서 접할 수 있는 다양한 종류 및 형태를 가지는 정보성 인쇄물에 대한 문서 영상을 보다 정확히 판단하기 위한 기술이 다각도로 연구되고 있다.
따라서, 본 발명의 목적은 종래 기술에서 문서 영상으로 판단하기 어려웠던, 다양한 종류 및 형태를 가지는 정보성 인쇄물에 대한 문서 영상을 보다 정확하게 판단할 수 있도록 하기 위한 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법을 제공함에 있다.
상기한 목적을 달성하기 위하여 본 발명의 일 견지에 따르면, 본 발명은 문서 영상 인식 방법에 있어서; 입력 영상에서 각 픽셀별로 해당 픽셀과 미리 설정된 거리만큼 떨어진 주변 지점들의 비교 픽셀들과의 비교를 통해 상기 비교 픽셀들과 유사하지 않은 픽셀을 특징점으로 판단하여 상기 특징점들에 대한 정보를 포함하는 1차 특징을 추출하는 과정과; 상기 1차 특징에 대해 상기 특징점들의 총 개수에 대한 기준을 포함하는 미리 설정된 1차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 과정을 포함함을 특징으로 한다.
바람직하게는, 상기 1차 분류 기준은 상기 1차 특징에서 추출된 상기 특징점들의 총 개수가 많으며, 상기 특징점들간의 색상 값의 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 분류 기준임을 특징으로 한다.
바람직하게는, 상기 1차 분류기준을 적용하여 문서/비문서 영상으로 분류한 결과, 문서 영상으로 판단되지 않은 입력 영상에 대해서, 해당 입력 영상에 대해 미리 설정된 범위 내에 존재하는 각각의 분리된 형상들을 문자 예측 영역으로 간주하며, 상기 문자 예측 영역별로 해당 형상들을 포함하는 최소 영역 사각형들을 구하며, 구해진 최소 영역 사각형들의 기울기들에 대한 정보를 포함하는 2차 특징을 추출하는 과정과; 상기 2차 특징에 대해 상기 기울기들의 차이에 대한 기준을 포함하는 미리 설정된 2차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 과정을 포함함을 특징으로 한다.
바람직하게는, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 가장 최소가 되는 색상 값을 가진 픽셀들의 색상 값에 대한 정보를 추가로 포함함을 특징으로 한다.
바람직하게는, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 최소 색상 값을 가지는 비교 픽셀들에 대한 정보를 추가로 포함하며; 상기 2차 분류기준은 상기 특징점들의 총 개수와, 상기 최소 색상 값을 가지는 비교 픽셀들 상기 색상 값에 대한 기준을 포함함을 특징으로 한다.
바람직하게는, 상기 2차 분류 기준은 상기 2차 특징에서 추출된 상기 기울기들의 편차가 적으며, 상기 특징점들의 총 개수가 많으며, 상기 최소 색상 값의 비교 픽셀들 사이의 색상 값이 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 비선형적인 분류 기준임을 특징으로 한다.
본 발명의 다른 견지에 따르면, 본 발명은 문서 영상 인식 장치에 있어서; 외부 촬영 대상을 촬영하는 카메라부와; 상기 카메라에 촬영하는 영상에 또는 외부 장치로부터 제공된 영상들에 대한 영상 처리 동작을 수행하는 영상 처리부를 포함하며; 상기 영상처리부는, 입력 영상에서 각 픽셀별로 해당 픽셀과 미리 설정된 거리만큼 떨어진 주변 지점들의 비교 픽셀들과의 비교를 통해 상기 비교 픽셀들과 유사하지 않은 픽셀을 특징점으로 판단하여 상기 특징점들에 대한 정보를 포함하는 1차 특징을 추출하며, 상기 1차 특징에 대해 상기 특징점들의 총 개수에 대한 기준을 포함하는 미리 설정된 1차 분류기준을 적용하여 문서/비문서 영상으로 분류함을 특징으로 한다.
상기한 바와 같이, 본 발명에 따른 문서 영상 인식 기술은 종래 기술에서 문서 영상으로 판단하기 어려웠던, 다양한 종류 및 형태를 가지는 정보성 인쇄물에 대한 문서 영상을 보다 정확하게 판단할 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 문서 영상 인식 장치가 적용되는 휴대용 단말기 블록 구성도
도 2는 본 발명의 일 실시예에 따른 문서 영상 인식 동작이 적용되는 사진 촬영 동작의 흐름도
도 3은 본 발명의 일 실시예에 따른 문서 영상 인식 동작의 흐름도
도 4는 도 3 중 1차 특징 추출된 영상의 일 예시도
도 5는 도 3 중 1차 특징 추출시 특징점 판단을 위해, 입력 영상에서 판단 대상 픽셀과 해당 판단 대상 픽셀 주변의 비교 픽셀들을 나타낸 일 예시도
도 6은 도 3 중 1차 특징에 대한 1차 분류기준의 예시도
도 7은 도 3 중 2차 특징 추출된 영상의 일 예시도
도 8은 도 3 중 2차 특징 추출된 영상의 다른 예시도
도 9는 도 3 중 2차 특징 추출시 기울기 정보 추출을 위해, 이진화 영상에서 문자 예상 영역의 기울기 판단 방식을 나타낸 일 예시도
도 10은 도 3의 동작 결과에 따라 분류된 문서 영상들의 예시도
도 11은 본 발명의 다른 실시예에 따른 문서 영상 인식 동작이 적용되는 사진 촬영 동작의 흐름도
이하 본 발명에 따른 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 동작 과정이나, 문서 영상에 대한 분류 기준들의 구체적인 수치들이나, 또는 다양한 예시 화면들과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 변경이 이루어질 수 있음은 이 기술분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.
도 1은 본 발명의 일 실시예에 따른 문서 영상 인식 장치가 적용되는 휴대용 단말기 블록 구성도이다. 도 1을 참조하여, 본 발명의 문서 영상 인식 장치가 적용되는 휴대용 단말기의 구성을 살펴보면, 휴대용 단말기는 기본적으로, 카메라부(10), 영상처리부(20), 메모리부(30), 제어부(40), 표시부(50), 조작부(60)를 구비한다.
카메라부(10)는 정지영상 및 동영상 촬영과 같은 일반적인 디지털 카메라 기능을 수행하여, 외부 촬영 대상으로부터 입력되는 가시광을 촬영하게 된다. 이러한 카메라(20)는 CCD 촬상 소자 등으로 구성되는 촬영부를 구비하며, 이외에도 조도 측정을 위한 조도 센서와, 피사체와의 초점거리 측정을 위한 거리 센서 등을 구비할 수 있다. 영상 처리부(20)는 카메라(10)에 촬영하는 영상에 대한 데이터를 처리하여 적절한 포맷의 디지털 영상 데이터로 변환하는 등, 영상 처리에 관한 전반적인 동작을 수행하며, 특히, 본 발명의 특징에 따라 카메라부(10)에 의해 촬영된 영상이나, 또는 외부 장치로부터 전달된 영상들을 분석하여 문서 영상인지 아닌지를 인식하는 동작을 수행한다.
표시부(50)는 통상 LCD 스크린으로 구성되어, 해당 휴대용 단말기의 각종 응용 프로그램의 실행 영상과, 각종 동작 상태나, 메뉴 상태 등을 디스플레이하며, 터치스크린 구조로 구현될 수 있다. 조작부(60)는 상기 표시부(50)와 연계된 터치스크린 컨트롤로 등으로 구성되어 사용자의 각종 터치스크린 조작을 입력받으며, 또한 키패드나 해당 장치의 외관 하우징 등에 기구적으로 구비되는 다수의 동작 조작을 위한 버튼을 구비하여 사용자의 조작을 입력받는다.
제어부(40)는 상기 각 기능부들을 총괄적으로 제어하여, 본 발명의 특징에 따른 문서 영상 인식 동작을 비롯하여 해당 휴대용 단말기의 동작을 전체적으로 제어한다. 메모리부(30)는 상기 촬영한 사진 영상을 비롯하여 다양한 컨텐츠나, 다양한 응용 프로그램 및 관련 컨텐츠와, 동작 처리와 관련된 데이터 등을 저장한다.
이외에도, 휴대용 단말기에는 이동 통신을 위한 안테나를 구비하며, 이동 통신 기능을 위한 무선 신호 처리 동작을 수행하는 이동통신부(70)와; 스피커 및 마이크 등을 구비하여 이동 통신 기능에 따른 전화 통화 수행시, 사용자의 음성을 입력받거나 사용자에게 가청음을 출력하며, 또한 각종 동작에 대응되는 처리음이나, 각종 디지털 오디오 컨텐츠, 동영상 컨텐츠 등에 대응되는 사운드를 출력하는 음성입출력부(80)를 구비한다.
이외에도, 휴대용 단말기에는 충전용 배터리 등으로 구성되는 전원부나, GPS부, 진동 모터, 해당 장치의 직임 상태를 검출하는 모션센서 등과 같이 통상적 휴대용 단말기에 적용되는 기능부들이 더 추가될 수 있음은 물론이다.
또한, 상기의 설명에서는 영상처리부(20)와 제어부(40)가 별도로 구성되는 것으로 개시되고 있으나, 상기 영상처리부(20) 및 제어부(40)는 물리적으로 또는 논리적으로 하나의 구성부로 구현할 수도 있다.
도 2는 본 발명의 일 실시예에 따른 문서 영상 인식 동작이 적용되는 사진 촬영 동작의 흐름도로서, 상기 도 1에 도시된 장치에서 제어부의 제어하에 수행될 수 있다. 도 2를 참조하여, 본 발명이 적용되는 사진 촬영 동작의 일 예를 살펴보면, 사진 촬영 동작은 크게 사진 촬영 모드(200) 및 사진 저장 모드(210)를 수행하는 것으로 구분할 수 있으며, 이 경우에 본 발명의 문서 영상 인식 방법은 일 예로서 사진 저장 모드(210)에서 수행되는 것이 도시되고 있다.
사용자가 해당 휴대용 단말기에 별도로 미리 마련된 사진 촬영 키 등을 조작하거나, 또는 메뉴 환경에서 사진 촬영 동작을 선택하는 것에 의해, 도 2에 도시된 사진 촬영 동작이 시작될 수 있다. 사진 촬영 모드(200)에서는 사용자가 셔터 키(촬영 키) 등을 조작할 경우에, 촬영 대상과의 거리 및 밝기 등의 촬영 조건을 고려하여 사진 촬영 동작을 수행하고, 이후 사진 저장 모드(210)가 수행된다.
사진 저장 모드(210)에서는 먼저 212단계에서 촬영 영상의 저장 여부를 판단한다. 이는 사용자에게 현재 촬영한 영상에 대한 저장 여부를 묻는 적절한 형태의 메시지 등을 표시부를 통해 표시하고, 이에 따른 사용자의 조작 여부에 따라 수행될 수 있다. 212단계에서 촬영 영상을 저장하지 않는 것으로 판단될 경우에는 해당 사진 저장 모드(210)를 종료하고 218단계로 진행하며, 촬영 영상을 저장하는 것으로 판단될 경우에는 이후 214단계로 진행한다.
214단계에서는 본 발명의 특징에 따라 해당 촬영 영상에 대해 문서 영상을 인식하여 문서/비문서 영상을 분류한다. 이후 216단계에서는 문서/비문서로 분류된 촬영 영상을 저장한다. 216단계에서는 분류된 촬영 영상을 저장시에, 문서/비문서 촬영 영상을 각각 별도로 마련된 저장 폴더에 구분하여 저장할 수 있으며, 또는 문서 영상에는 별도의 메타 데이터로서, 해당 촬영 영상이 문서 영상임을 표시하여 저장할 수도 있다.
이후 218단계에서는 별도로 설정된 종료 키(예를 들어, 홈 버튼) 등의 입력과 같은 사진 촬영의 종료 조건을 판단하여, 사진 촬영의 종료 조건이 아닐 경우에는 상기 사진 촬영 모드(200)로 되돌아가서 상기의 동작을 반복 진행하며, 사진 촬영의 종료 조건일 경우에는 사진 촬영 동작을 모두 종료하게 된다.
상기 도 2에 도시된 과정들을 통해 본 발명의 일 실시예에 따른 사진 촬영 동작이 수행될 수 있는데, 한편 상기 212단계에서 별도로 사용자로부터 저장 여부에 대한 선택을 받는 동작을 수행하는 것으로 설명하였으나, 이외에도 본 발명의 다른 실시예에서는 상기 212단계의 동작을 수행하지 않고 자동적으로 촬영 영상을 저장하는 것으로 동작하는 것도 가능하다.
도 3은 본 발명의 일 실시예에 따른 문서 영상 인식 동작의 흐름도로서, 상기 도 2에 도시된 사진 저장 모드(210)에서 촬영 영상에 대한 문서/비문서 분류 동작을 수행하는 214단계의 상세 동작으로 적용될 수 있다. 이러한 도 3에 도시된 동작은 상기 도 1에 도시된 제어부에서 수행될 수 있으나, 도 3과 관련된 동작은 별도로 영상처리부에서 수행될 수 있다. 도 3을 참조하면, 본 발명의 일 실시예에 따른 문서 영상 인식 동작은 먼저 302단계에서 해당 입력된 영상에서 1차 특징을 추출한다.
302단계에서 1차 특징 추출은, 해당 영상에서 각 픽셀별로 해당 픽셀과 인접한(그러나 바로 이웃하지 않고 미리 설정된 거리만큼 떨어진 주변 지점들의) 비교 픽셀들과의 비교를 통해 비교 픽셀들과 유사하지 않은 픽셀들에 대한 정보를 추출하는 것을 포함한다. 이러한 방식은 일명 'FAST feature' 알고리즘으로 불리는데, 상기 주변의 비교 픽셀들과 유사하지 않는 픽셀들을 '특징점'으로 칭한다. 도 4에는 1차 특징 추출된 영상의 예가 도시되고 있으며, 해당 영상에서 다수의 특징점이 녹색으로 표시되고 있다. 도 5에는 1차 특징 추출시 특징점 판단을 위해, 해당 영상에서 판단 대상 픽셀과 해당 판단 대상 픽셀 주변의 비교 픽셀들의 예가 도시되고 있으며, 판단 대상 픽셀(p)에서 방사상으로 일정거리 이격된 지점들의 16개의 주변 픽셀들이 비교 픽셀로 설정되는 예가 도시되고 있다. 이때 특징점의 판단 계산을 보다 쉽게 하기 위해 해당 영상을 흑백 영상으로 변환하고, 각각의 픽셀들의 색상 값(밝기 값)을 이용하여 특징점 판단을 위한 주변의 비교 픽셀들과 유사 여부를 판단할 수 있다.
이후 304단계에서는, 상기 302단계에서 추출된 1차 특징에 대해 문서/비문서 영상으로 분류하기 위해 미리 설정된 1차 분류기준을 적용한다. 1차 분류 기준은 상기 302단계에서 판단된 특징점들의 총 개수가 많을수록, 또한, 특징점들간의 색상 값, 예를 들어 밝기 값들의 편차가 적을수록 문서 영상으로 분류되게 설정된다. 이러한 1차 분류 기준은 특징점들의 총 개수 및 밝기 값들의 표준 편차를 2가지 변수로 사용하는 대한 선형적인 분류 기준이 적용될 수도 있으나, 본 발명의 일 실시예에서는 보다 유연하며 정확한 판단을 위해, 별도의 컴퓨팅 환경에서, RBF(Radial Basis Function) 커널(kernel)을 사용하는 SVM(Support Vector Machine)의 기계학습알고리즘을 사용하여 미리 설정되는 비선형적인 분류 기준을 적용한다. 도 6에서는 1차 특징에 대한 1차 분류기준의 예가 도시되고 있는데, 이는 총 500장의 문서/비문서 영상에 대해 SVM 학습 결과에 해당한다.
상기 304단계에서의 1차 특징에 대한 1차 분류기준을 적용한 후 306단계에서는 해당 입력 영상이 문서 영상으로 판단되는지를 확인하여, 문서 영상으로 판단될 경우에는 308단계로 진행하여 해당 입력 영상을 문서 영상으로 분류한다.
상기 302내지 308단계의 동작을 살펴보면, 본 발명에서는 첫 번째로, 입력 영상에서 FAST feature 알고리즘을 통해 추출된 특징점들의 총 개수와 두 번째로, 특징점들의 밝기 값(예를 들어, Color Histogram)들의 표준편차 값을 사용하여 해당 입력 영상을 문서 영상으로 분류하는 것임을 알 수 있다. 전형적인 문서 영상의 경우 많은 문자들로 인해 FAST feature 알고리즘으로 추출되는 특징점들의 총 개수가 많고, 특징점들이 문자의 모서리에 걸쳐 있는 경우가 많으므로, 특징점들의 밝기 값(Color histogram)의 표준편차가 비문서 영상에 비해 작은 특징을 가지고 있기 때문에, 이러한 본 발명의 방식을 사용하여 문서 영상을 보다 정확히 분류할 수 있게 된다. 이때 특징점들의 수는 영상의 크기에 따라 다르므로 일정한 크기로 정규화시킨 수를 사용할 수 있다.
한편, 상기 306단계에서 해당 입력 영상이 문서 영상으로 판단되지 않을 경우에는 본 발명의 다른 실시예에서는 입력 영상을 비문서 영상으로 분류하도록 동작하는 것도 가능하나, 도 3의 실시예에서는, 310단계 이하로 진행하여, 2차적으로 해당 입력 영상이 문서 영상인지 재차 판단하는 동작을 수행하게 된다. 즉, 310단계에서는 먼저 302단계에서 해당 입력된 영상에서 2차 특징을 추출한다.
310단계에서 2차 특징 추출은 해당 입력 영상에서 미리 설정된 범위를 이진화 변환한 영상에서 해당 이진화 영상 내에 존재하는 각각의 분리된 형상들(문자 예측 영역)별로 해당 형상들을 포함하는 최소 영역 사각형들을 구하고, 구해진 최소 영역 사각형들의 기울기들에 대한 정보를 추출하는 것을 포함한다. 도 7 및 도 8에는 2차 특징 추출된 영상들의 예가 도시되고 있는데, 도 7 및 도 8의 (a)에서는 각 입력 영상에서 문자 예측 영역별로 구해진 기울기들이 초록색(또는 파란색)으로 표시되고 있으며, 도 7 및 도 8에서는 입력 영상에서 미리 설정된 범위(예를 들어, 중심 위치의 일부 부위)를 이진화한 영상을 나타내고 있다.
도 9에는 2차 특징 추출시 기울기 정보 추출을 위해, 이진화 영상에서 문자 예측 영역의 기울기 판단 방식을 예가 도시되고 있는데, 도 9의 (a)에는 입력 영상에서 미리 설정된 범위를 이진화 변환한 영상의 예가 도시되며, 도 9의 (b)에서는 해당 이진화 영상 내에 존재하는 분리된 형상들(문자 예측 영역)별로 해당 형상들을 포함하는 최소 영역 사각형들을 구하는 것이 도시되고 있다. 이때 입력 영상을 이진화하는 것은 다양한 글자 색상이 섞여 있는 영상이나 다양한 배경색이 섞여 있는 문서 영상에서도 문자 예측 영역을 보다 쉽게 구분할 수 있도록 한다. 또한, 도 9의 (a) 및 (b)에서는 A, B가 연결된 단지 하나의 형상만 존재하는 것이 예로써 도시되고 있다. 이와 같이 실제로 문자들에 해당하는 형상의 개수가 적을수록 각각의 형상들에 대한 최소 영역 사각형을 구하는 계산량이 줄어들게 되므로, 이진화 영상 변환시에, 통상적인 영상 처리 기법의 하나인 형상 확대(morphology dilate) 연산을 통해 인접한 문자들의 형상이 서로 연결될 수 있도록 구현할 수도 있다. 이와 같이 문자들의 형상이 서로 연결되어도 최종적으로 구해진 최소 영역 사각형의 기울기는 문자들의 서로 연결되지 않을 경우의 형상과 비교하여 동일하거나, 오히려 더 정확할 수 있다. 도 9의 (c)에는 문자 예측 영역(즉, 형상)을 포함하면서 최소 면적을 가지는 최소 영역 사각형이 구해진 상태가 도시되고 있으며, 이후 도 9의 (d)에 도시된 바와 같이, 최소 영역 사각형의 두 개의 가로변(a, c) 및 두 개의 세로변(b, d) 중 하나(예를 들어, 밑변 또는 윗변)를 기준으로 하여 기울기 정보를 구하게 된다. 이때 기울기 정보는 수직 또는 수평을 기준으로 예를 들어 30등분한 값으로 설정될 수 있다.
이와 같이, 310단계에서 2차 특징 추출 동작이 수행될 수 있는데, 상기 기울기 정보만을 이용하여 2차적으로 문서 영상을 판단하는 동작도 가능할 수 있으나, 본 발명의 실시예에서는 이와 더불어, 상기 310단계에서의 2차 특징 추출 동작시 상기 302단계에서의 1차 특징 추출과 마찬가지로, 해당 영상에서 각 픽셀별로 해당 픽셀과 인접한(그러나 바로 이웃하지 않고 미리 설정된 거리만큼 떨어진 주변 지점들의) 비교 픽셀들과의 비교를 통해 비교 픽셀들과 유사하지 않은 픽셀들, 즉 특징점들에 대한 총 개수에 대한 정보도 2차 특징에 포함되게 추출한다. 물론 이 경우에 상기 특징점들은 1차 특징 추출 동작시에 수행된 특징점들에 대한 정보를 그대로 활용할 수 있다.
또한, 이와 더불어, 310단계에서는 각 특징점들의 주변 16개의 비교 픽셀들 중에서 가장 최소가 되는 색상 값(즉, 최소 밝기 값을 가진) 픽셀의 색상 값에 대한 정보를 추출한다. 이는 후술하는 바와 같이, 이후 특징점 자체의 밝기 값을 이용하는 것이 아니라, 상기 주변의 비교 픽셀들 중에서 최소가 되는 색상 값을 이용하고자 하는 것이다. 즉, 다양한 문서 영상의 경우에는 비교적 큰 문자에서 FAST feature 알고리즘에 의해 구해진 특징점이 실제로 문자의 외측에 픽셀로 설정되는 경우가 종종 발생하므로, 1차 분류기준에서 사용 한 것과 같은 방식이 아니라, 특징점 주위에서 가장 최소가 되는 색상 값을 이용하기 위함이다.
상기와 같이, 2차 특징을 추출한 이후 312단계에서는, 상기 310단계에서 추출된 2차 특징에 대해 문서/비문서 영상으로 분류하기 위해 미리 설정된 2차 분류기준을 적용한다. 2차 분류 기준은 상기 310단계에서 구해진 각각의 형상에 대한 기울기들의 편차가 적을수록, 또한, 상기 특징점들의 총 개수가 많을수록, 또한 각각의 특징점별로 최소 색상 값의 비교 픽셀들 사이의 색상 값이 편차가 적을수록 문서 영상으로 분류되게 설정된다. 이때 상기 3가지 변수에 대해 별도의 컴퓨팅 환경에서, RBF 커널을 사용하는 SVM의 기계학습알고리즘을 사용하여 미리 설정되는 비선형적인 분류 기준을 적용할 수 있다.
물론, 상기 312단계에서 2차 분류 기준을 적용할 경우에, 상기 310단계에서 기울기에 대한 정보만을 구하는 것으로 동작할 경우에는 기울기들의 표준편차만을 분류 기준으로 적용할 수 있다.
한편, 상기에서 각각의 형상에 대한 기울기들의 편차가 적을수록 문자 영상으로 간주하는 것은, 해당 영상에 존재하는 문자 형상의 경우 각 문자들의 해당 기울기의 각도가 동일하거나 유사한 것이 많으므로 그럴 경우에 문서 영상으로 분류하게 된다. 이 경우에 해당 영상이 촬영 대상 문서와 비교하여 수평 또는 수직이 일치하지 않고 기울지게 촬영될 경우에도, 해당 영상 내에 존재하는 문자 형상의 기울기는 서로 기울어진 상태로 동일하므로, 기울기들간의 유사 여부를 판단함으로써, 해당 영상이 문서 영상인지 판단하는 것이 가능할 수 있다.
상기 312단계에서의 2차 특징에 대한 2차 분류기준을 적용한 후 314단계에서는 해당 입력 영상이 문서 영상으로 판단되는지를 확인하여, 문서 영상으로 판단될 경우에는 308단계로 진행하여 해당 입력 영상을 문서 영상으로 분류하고, 문서 영상으로 판단되지 않을 경우에는 316단계로 진행한다. 316단계에서는 해당 입력 영상을 비문서 영상으로 분류한다. 도 10에는 도 3의 동작 결과에 따라 분류된 문서 영상들의 예가 도시되고 있는데, 도 10에 도시된 영상들에서 별도로 추가된 'Document' 라벨은 설명의 편의를 위해 도시한 것으로서, 원래의 영상에 추가로 합성되지는 않으나, 본 발명의 다른 실시예에서는 이러한 문서 영상임을 표시하는 표지가 원래의 영상과 합성되게 하거나, 또는 원래의 영상의 썸네일에는 표시되게 구현할 수도 있다.
상기 도 3에 도시된 동작을 전체적으로 살펴보면, 본 발명의 실시예에서는 문서 영상의 분류를 위해 2단계 분류 동작을 수행함을 알 수 있다. 즉, 1차 분류시에는 대체로 동일한 배경 색과 문자 색을 가지는 전형적인 문서 영상을 분류하고, 2차 분류시에는 버스 시간표, 메뉴판, 벽보, 포스터 등과 같이 문자를 포함하고 있지만 그 수가 적고 다양한 크기와 모양을 가져서 비교적 1차 분류시에 문서 영상으로 분류되지 않은 문서 영상에 대하여 분류한다.
도 11은 본 발명의 다른 실시예에 따른 문서 영상 인식 동작이 적용되는 사진 촬영 동작의 흐름도로서, 상기 도 1에 도시된 장치에서 제어부의 제어하에 수행될 수 있다. 도 11을 참조하여, 본 발명이 적용되는 사진 촬영 동작의 다른 예를 살펴보면, 사진 촬영 동작은 크게 사진 촬영 모드(110) 및 사진 저장 모드(120)를 수행하는 것으로 구분할 수 있으며, 도 11에 도시된 예에서는 본 발명의 문서 영상 인식 방법은 일 예로서 사진 촬영 모드(110)에서 수행되는 것이 도시되고 있다.
사용자가 해당 휴대용 단말기에 별도로 미리 마련된 사진 촬영 키 등을 조작하거나, 또는 메뉴 환경에서 사진 촬영 동작을 선택하는 것에 의해, 도 11에 도시된 사진 촬영 동작이 시작될 수 있다.
사진 촬영 모드(110)에서는 먼저, 111단계에서 현재 카메라부를 통해 입력되는 영상을 프리뷰 영상으로 표시부를 통해 표시한다. 이후 112단계에서는 상기 프리뷰 영상 중에서 일 정지 영상을 선택한다. 이후 114단계에서는 선택한 정지 영상에 대한 문서/비문서 영상을 분류한다. 이러한 114단계에서 문서/비문서 영상 분류 동작은 상기 도 3에 도시된 바와 같은 문서/비문서 영상 분류 동작을 통해 수행될 수 있다.
이후 115단계에서는 분류 결과에 따라 미리 문서/비문서 영상에 따라 달리 적절히 설정된 촬영 조건을 가지는 문서/비문서 촬영모드를 설정하게 된다. 이후 116단계에서 셔터 키의 조작이 있는지 여부를 판단하여 셔터 키의 조작이 있을 경우에 이후 117단계에서 현재 문서/비문서 촬영 조건에 따라 사진 촬영 동작을 수행한다. 상기 115단계 및 117단계에서 문서 영상에 대한 촬영 조건은 예를 들어, 문자와 배경간의 대비가 더욱 강조되는 방향으로 노출, 셔터 속도 및 감도 등의 조건이 설정되며, 오토 플래시 모드를 디스에이블 하는 것도 포함할 수 있다.
이후 사진 저장 모드(120)가 수행된 후, 218단계에서는 별도로 설정된 종료 키(예를 들어, 홈 버튼) 등의 입력과 같은 사진 촬영의 종료 조건을 판단하여, 사진 촬영 동작을 종료하게 된다. 이때 상기 사진 저장 모드(120)에서는 해당 촬영한 사진의 문서/비문서 정보를 이용하여, 문서/비문서 촬영 영상을 각각 별도로 마련된 저장 폴더에 구분하여 저장할 수 있으며, 또는 문서 영상에는 별도의 메타 데이터로서, 해당 촬영 영상이 문서 영상임을 표시하여 저장할 수도 있다.
상기와 같이 본 발명의 일 실시예에 따른 문서 영상 인식을 위한 구성 및 동작이 이루어질 수 있으며, 한편 상기한 본 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나 여러 가지 변형이 본 발명의 범위를 벗어나지 않고 실시될 수 있다.
예를 들어, 상기의 설명에서는, 본 발명에 따른 문서/비문서 영상 인식 기술이 사진 촬영 동작(사진 촬영 모드 및 사진 저장 모드)에 적용되는 것으로 설명하였으나, 이외에도 본 발명의 문서/비문서 영상 인식 기술은 기존에 저장된 사진 영상들 중에서 문서/비문서 영상을 일괄적으로 확인 또는 검색하는 동작에도 적용될 수 있다. 또한, 본 발명에 따른 문서/비문서 영상 인식 기술은 영상 문자 인식 기술과 연계하여 동작하는 것도 가능하다.
또한, 상기의 설명에서는, 본 발명에 따른 문서/비문서 영상 인식 기술이 휴대용 단말기에 촬영되는 사진 영상을 대상으로 적용되는 것으로 설명하였으나, 이외에도 본 발명은 해당 휴대용 단말기 외에 다른 컴퓨팅 환경에서도 적용될 수 있으며, 또한 외부의 다른 장치로부터 전달된 영상들을 분석하여 문서/비문서 영상을 인식하는 경우에도 충분히 적용될 수 있다.
또한, 상기의 설명에서는, 본 발명에 따른 문서/비문서 영상 인식 동작 중, 도 3에 도시된 바와 같이, 2차 특징으로서, 해당 영상의 문자 예측 영역의 기울기 편차와 더불어, 해당 영상의 특징점의 총 개수 및 각각의 특징점별로 최소 색상 값의 비교 픽셀들에 대한 정보를 이용할 수 있는 것으로 설명하였으나, 본 발명의 다른 실시예에서는 해당 영상의 문자 예측 영역의 기울기 편차는 이용하지 않고, 해당 영상의 특징점의 총 개수 및 각각의 특징점별로 최소 색상 값의 비교 픽셀들에 대한 정보만을 이용하는 것도 가능할 수 있다.
또한, 이외에도, 본 발명의 문서/비문서 영상 인식 동작은, 종래기술에서도 설명한 바와 같은 에지검출방식과 병행하거나, 에지검출방식과 연계하여 수행하는 것도 가능할 수 있다.
또한, 본 발명의 실시 예들은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합의 형태로 실현 가능하다는 것을 알 수 있을 것이다. 이러한 임의의 소프트웨어는 예를 들어, 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 휴대용 단말기 내에 포함될 수 있는 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 따라서, 본 발명은 본 명세서의 임의의 청구항에 기재된 장치 또는 방법을 구현하기 위한 코드를 포함하는 프로그램 및 이러한 프로그램을 저장하는 기계로 읽을 수 있는 저장 매체를 포함한다. 또한, 이러한 프로그램은 유선 또는 무선 연결을 통해 전달되는 통신 신호와 같은 임의의 매체를 통해 전자적으로 이송될 수 있고, 본 발명은 이와 균등한 것을 적절하게 포함한다.

Claims (24)

  1. 문서 영상 인식 방법에 있어서,
    입력 영상에서 각 픽셀별로 해당 픽셀과 미리 설정된 거리만큼 떨어진 주변 지점들의 비교 픽셀들과의 비교를 통해 상기 비교 픽셀들과 유사하지 않은 픽셀을 특징점으로 판단하여 상기 특징점들에 대한 정보를 포함하는 1차 특징을 추출하는 과정과,
    상기 1차 특징에 대해 상기 특징점들의 총 개수에 대한 기준을 포함하는 미리 설정된 1차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 과정을 포함함을 특징으로 하는 문서 영상 인식 방법.
  2. 제1항에 있어서, 상기 1차 분류 기준은 상기 1차 특징에서 추출된 상기 특징점들의 총 개수가 많으며, 상기 특징점들간의 색상 값의 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 분류 기준임을 특징으로 하는 문서 영상 인식 방법.
  3. 제1항 또는 제2항에 있어서, 상기 특징점들의 판단시에, 해당 입력 영상을 흑백 영상으로 변환하며,
    판단 대상 픽셀에서 방사상으로 일정거리 이격된 지점들의 16개의 주변 픽셀들이 상기 비교 픽셀들로 설정함을 특징으로 하는 문서 영상 인식 방법.
  4. 제1항에 있어서, 상기 1차 분류기준을 적용하여 문서/비문서 영상으로 분류한 결과, 문서 영상으로 판단되지 않은 입력 영상에 대해서, 해당 입력 영상에 대해 미리 설정된 범위 내에 존재하는 각각의 분리된 형상들을 문자 예측 영역으로 간주하며, 상기 문자 예측 영역별로 해당 형상들을 포함하는 최소 영역 사각형들을 구하며, 구해진 최소 영역 사각형들의 기울기들에 대한 정보를 포함하는 2차 특징을 추출하는 과정과,
    상기 2차 특징에 대해 상기 기울기들의 차이에 대한 기준을 포함하는 미리 설정된 2차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 과정을 포함함을 특징으로 하는 문서 영상 인식 방법.
  5. 제4항에 있어서, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 가장 최소가 되는 색상 값을 가진 픽셀들의 색상 값에 대한 정보를 추가로 포함함을 특징으로 하는 문서 영상 인식 방법.
  6. 제5항에 있어서, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 최소 색상 값을 가지는 비교 픽셀들에 대한 정보를 추가로 포함하며,
    상기 2차 분류기준은 상기 특징점들의 총 개수와, 상기 최소 색상 값을 가지는 비교 픽셀들 상기 색상 값에 대한 기준을 포함함을 특징으로 하는 문서 영상 인식 방법.
  7. 제6항에 있어서, 상기 2차 분류 기준은 상기 2차 특징에서 추출된 상기 기울기들의 편차가 적으며, 상기 특징점들의 총 개수가 많으며, 상기 최소 색상 값의 비교 픽셀들 사이의 색상 값이 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 비선형적인 분류 기준임을 특징으로 하는 문서 영상 인식 방법.
  8. 제4항 내지 제7항 중 어느 한 항에 있어서, 상기 2차 특징 추출시에, 해당 입력 영상에 이진화 변환하며, 형상 확대(morphology dilate) 연산을 통해 인접한 문자들의 형상이 서로 연결될 수 있도록 구현함을 특징으로 하는 문서 영상 인식 방법.
  9. 문서 영상 인식 장치에 있어서,
    외부 촬영 대상을 촬영하는 카메라부와.
    상기 카메라에 촬영하는 영상에 또는 외부 장치로부터 제공된 영상들에 대한 영상 처리 동작을 수행하는 영상 처리부를 포함하며,
    상기 영상처리부는,
    입력 영상에서 각 픽셀별로 해당 픽셀과 미리 설정된 거리만큼 떨어진 주변 지점들의 비교 픽셀들과의 비교를 통해 상기 비교 픽셀들과 유사하지 않은 픽셀을 특징점으로 판단하여 상기 특징점들에 대한 정보를 포함하는 1차 특징을 추출하며,
    상기 1차 특징에 대해 상기 특징점들의 총 개수에 대한 기준을 포함하는 미리 설정된 1차 분류기준을 적용하여 문서/비문서 영상으로 분류함을 특징으로 하는 문서 영상 인식 장치.
  10. 제9항에 있어서, 상기 1차 분류 기준은 상기 1차 특징에서 추출된 상기 특징점들의 총 개수가 많으며, 상기 특징점들간의 색상 값의 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 분류 기준임을 특징으로 하는 문서 영상 인식 장치.
  11. 제9항 또는 제10항에 있어서, 상기 영상처리부는,
    상기 특징점들의 판단시에, 해당 입력 영상을 흑백 영상으로 변환하며,
    판단 대상 픽셀에서 방사상으로 일정거리 이격된 지점들의 16개의 주변 픽셀들이 상기 비교 픽셀들로 설정함을 특징으로 하는 문서 영상 인식 장치.
  12. 제9항에 있어서, 상기 영상처리부는,
    상기 1차 분류기준을 적용하여 문서/비문서 영상으로 분류한 결과, 문서 영상으로 판단되지 않은 입력 영상에 대해서, 해당 입력 영상에 대해 미리 설정된 범위 내에 존재하는 각각의 분리된 형상들을 문자 예측 영역으로 간주하며, 상기 문자 예측 영역별로 해당 형상들을 포함하는 최소 영역 사각형들을 구하며, 구해진 최소 영역 사각형들의 기울기들에 대한 정보를 포함하는 2차 특징을 추출하며,
    상기 2차 특징에 대해 상기 기울기들의 차이에 대한 기준을 포함하는 미리 설정된 2차 분류기준을 적용하여 문서/비문서 영상으로 분류함을 특징으로 하는 문서 영상 인식 장치.
  13. 제12항에 있어서, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 가장 최소가 되는 색상 값을 가진 픽셀들의 색상 값에 대한 정보를 추가로 포함함을 특징으로 하는 문서 영상 인식 장치.
  14. 제13항에 있어서, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 최소 색상 값을 가지는 비교 픽셀들에 대한 정보를 추가로 포함하며,
    상기 2차 분류기준은 상기 특징점들의 총 개수와, 상기 최소 색상 값을 가지는 비교 픽셀들 상기 색상 값에 대한 기준을 포함함을 특징으로 하는 문서 영상 인식 장치.
  15. 제14항에 있어서, 상기 2차 분류 기준은 상기 2차 특징에서 추출된 상기 기울기들의 편차가 적으며, 상기 특징점들의 총 개수가 많으며, 상기 최소 색상 값의 비교 픽셀들 사이의 색상 값이 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 비선형적인 분류 기준임을 특징으로 하는 문서 영상 인식 장치.
  16. 제12항 내지 제15항 중 어느 한 항에 있어서, 상기 영상처리부는,
    상기 2차 특징 추출시에, 해당 입력 영상에 이진화 변환하며, 형상 확대(morphology dilate) 연산을 통해 인접한 문자들의 형상이 서로 연결될 수 있도록 구현함을 특징으로 하는 문서 영상 장치.
  17. 문서 영상 인식 기술을 이용한 사진 촬영 방법에 있어서,
    미리 설정된 사진 촬영 조작에 의해 촬영 대상에 사진 촬영 동작을 수행하는 사진 촬영 과정과,
    상기 촬영한 영상에 대해 문서/비문서 영상을 분류하여 저장하는 사진 저장 과정을 포함하며,
    상기 문서/비문서 영상을 분류하는 것은,
    상기 촬영 영상을 입력받아, 입력 영상에서 각 픽셀별로 해당 픽셀과 미리 설정된 거리만큼 떨어진 주변 지점들의 비교 픽셀들과의 비교를 통해 상기 비교 픽셀들과 유사하지 않은 픽셀을 특징점으로 판단하여 상기 특징점들에 대한 정보를 포함하는 1차 특징을 추출하는 단계와,
    상기 1차 특징에 대해 상기 특징점들의 총 개수에 대한 기준을 포함하는 미리 설정된 1차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 단계를 포함함을 특징으로 하는 사진 촬영 방법.
  18. 제17항에 있어서, 상기 문서/비문서 영상을 분류하여 저장시,
    상기 문서/비문서로 분류된 영상들을 각각 별도의 저장 폴더에 구분하여 저장하거나, 또는 문서 영상에는 해당 영상이 문서 영상임이 나타내는 정보를 추가함을 특징으로 하는 사진 촬영 방법.
  19. 문서 영상 인식 기술을 이용한 사진 촬영 방법에 있어서,
    카메라부를 통해 입력되는 영상을 프리뷰 영상으로 표시하는 과정과,
    상기 프리뷰 영상 중에서 일 정지 영상을 선택하는 과정과,
    상기 선택한 정지 영상에 대한 문서/비문서 영상을 분류하는 과정과,
    상기 문서/비문서 영상 분류 결과에 따라 미리 설정된 문서/비문서 촬영 조건을 설정하는 과정과,
    미리 설정된 촬영 키의 조작이 있을 경우에, 현재 설정된 문서/비문서 촬영 조건에 따라 사진 촬영 동작을 수행하는 과정을 포함하며,
    상기 문서/비문서 영상을 분류하는 것은,
    상기 선택한 정지 영상을 입력받아, 입력 영상에서 각 픽셀별로 해당 픽셀과 미리 설정된 거리만큼 떨어진 주변 지점들의 비교 픽셀들과의 비교를 통해 상기 비교 픽셀들과 유사하지 않은 픽셀을 특징점으로 판단하여 상기 특징점들에 대한 정보를 포함하는 1차 특징을 추출하는 단계와,
    상기 1차 특징에 대해 상기 특징점들의 총 개수에 대한 기준을 포함하는 미리 설정된 1차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 단계를 포함함을 특징으로 하는 사진 촬영 방법.
  20. 제19항에 있어서, 상기 촬영한 영상에 대해 상기 문서/비문서로 분류된 영상들을 각각 별도의 저장 폴더에 구분하여 저장하거나, 또는 문서 영상에는 해당 영상이 문서 영상임이 나타내는 정보를 추가하여 저장하는 과정을 더 포함함을 특징으로 하는 사진 촬영 방법.
  21. 제17항 내지 제20항 중 어느 한 항에 있어서, 상기 1차 분류 기준은 상기 1차 특징에서 추출된 상기 특징점들의 총 개수가 많으며, 상기 특징점들간의 색상 값의 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 분류 기준임을 특징으로 하는 사진 촬영 방법.
  22. 제17항 내지 제20항 중 어느 한 항에 있어서, 상기 문서/비문서 영상을 분류시,
    상기 1차 분류기준을 적용하여 문서/비문서 영상으로 분류한 결과, 문서 영상으로 판단되지 않은 입력 영상에 대해서, 해당 입력 영상에 대해 미리 설정된 범위 내에 존재하는 각각의 분리된 형상들을 문자 예측 영역으로 간주하며, 상기 문자 예측 영역별로 해당 형상들을 포함하는 최소 영역 사각형들을 구하며, 구해진 최소 영역 사각형들의 기울기들에 대한 정보를 포함하는 2차 특징을 추출하는 단와,
    상기 2차 특징에 대해 상기 기울기들의 차이에 대한 기준을 포함하는 미리 설정된 2차 분류기준을 적용하여 문서/비문서 영상으로 분류하는 단계를 더 포함함을 특징으로 하는 사진 촬영 방법.
  23. 제22항에 있어서, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 최소 색상 값을 가지는 비교 픽셀들에 대한 정보를 추가로 포함하며,
    상기 2차 분류기준은 상기 특징점들의 총 개수와, 상기 최소 색상 값을 가지는 비교 픽셀들 상기 색상 값에 대한 기준을 포함함을 특징으로 하는 사진 촬영 방법.
  24. 제22항에 있어서, 상기 2차 특징은 해당 입력 영상에 대한 상기 특징점들의 총 개수에 대한 정보와, 상기 각 특징점들의 상기 비교 픽셀들 중에서 최소 색상 값을 가지는 비교 픽셀들에 대한 정보를 추가로 포함하며,
    상기 2차 분류기준은 상기 특징점들의 총 개수와, 상기 최소 색상 값을 가지는 비교 픽셀들 상기 색상 값에 대한 기준을 포함하며,
    상기 2차 분류 기준은 상기 2차 특징에서 추출된 상기 기울기들의 편차가 적으며, 상기 특징점들의 총 개수가 많으며, 상기 최소 색상 값의 비교 픽셀들 사이의 색상 값이 편차가 적을수록 문서 영상으로 분류되게 미리 기계학습알고리즘을 사용하여 설정되는 비선형적인 분류 기준임을 특징으로 하는 사진 촬영 방법.
KR1020120128147A 2012-11-13 2012-11-13 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법 KR101992153B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020120128147A KR101992153B1 (ko) 2012-11-13 2012-11-13 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법
EP13192659.4A EP2731054B1 (en) 2012-11-13 2013-11-13 Method and device for recognizing document image, and photographing method using the same
US14/079,156 US9628660B2 (en) 2012-11-13 2013-11-13 Method and device for recognizing document image, and photographing method using the same
CN201310572149.2A CN103810471B (zh) 2012-11-13 2013-11-13 识别文档图像的方法和装置及其拍摄方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120128147A KR101992153B1 (ko) 2012-11-13 2012-11-13 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법

Publications (2)

Publication Number Publication Date
KR20140061033A true KR20140061033A (ko) 2014-05-21
KR101992153B1 KR101992153B1 (ko) 2019-06-25

Family

ID=49585289

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120128147A KR101992153B1 (ko) 2012-11-13 2012-11-13 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법

Country Status (4)

Country Link
US (1) US9628660B2 (ko)
EP (1) EP2731054B1 (ko)
KR (1) KR101992153B1 (ko)
CN (1) CN103810471B (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102109855B1 (ko) * 2019-03-06 2020-05-12 서울대학교산학협력단 Sift 구분자를 활용한 실내도면 이미지에서의 텍스트 정보 구축 방법
US11189015B2 (en) 2018-05-30 2021-11-30 Samsung Electronics Co., Ltd. Method and apparatus for acquiring feature data from low-bit image
US11620872B2 (en) 2015-08-03 2023-04-04 Angel Group Co., Ltd. Fraud detection system in a casino

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721259B2 (en) 2012-10-08 2017-08-01 Accenture Global Services Limited Rules-based selection of counterfeit detection techniques
CN105590082B (zh) * 2014-10-22 2019-02-22 北京拓尔思信息技术股份有限公司 文档图像识别方法
US10181102B2 (en) * 2015-01-22 2019-01-15 Tata Consultancy Services Limited Computer implemented classification system and method
US10061980B2 (en) 2015-08-20 2018-08-28 Accenture Global Services Limited Digital verification of modified documents
US10116830B2 (en) 2016-09-15 2018-10-30 Accenture Global Solutions Limited Document data processing including image-based tokenization
CN107506362B (zh) * 2016-11-23 2021-02-23 上海大学 基于用户群优化的图像分类仿脑存储方法
CN110463177A (zh) * 2017-04-06 2019-11-15 华为技术有限公司 文档图像的校正方法及装置
CN108737712A (zh) * 2017-04-24 2018-11-02 中兴通讯股份有限公司 一种拍照方法和装置
CN107743195A (zh) * 2017-10-09 2018-02-27 惠州Tcl移动通信有限公司 一种拍照方法、移动终端及存储介质
EP3700198B1 (en) * 2017-10-16 2024-04-03 Sony Group Corporation Imaging device, image processing apparatus, and image processing method
US11212397B1 (en) * 2020-06-30 2021-12-28 Kyocera Document Solutions Inc. Image reading system, image forming system, and image reading method for dividing each area into blockchains

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189170A (ja) * 2001-10-17 2003-07-04 Hewlett Packard Co <Hp> 自動的に文書を検出する方法およびシステム
KR20110094709A (ko) * 2010-02-17 2011-08-24 삼성전자주식회사 문자 영역 추출을 위한 영상 생성 장치 및 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6512848B2 (en) * 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
US6233353B1 (en) * 1998-06-29 2001-05-15 Xerox Corporation System for segmenting line drawings from text within a binary digital image
US20050281463A1 (en) * 2004-04-22 2005-12-22 Samsung Electronics Co., Ltd. Method and apparatus for processing binary image
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
WO2007023992A1 (en) 2005-08-23 2007-03-01 Ricoh Company, Ltd. Method and system for image matching in a mixed media environment
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
KR101907414B1 (ko) * 2011-12-13 2018-10-15 삼성전자주식회사 촬영 이미지 기반의 문자 인식 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003189170A (ja) * 2001-10-17 2003-07-04 Hewlett Packard Co <Hp> 自動的に文書を検出する方法およびシステム
KR20110094709A (ko) * 2010-02-17 2011-08-24 삼성전자주식회사 문자 영역 추출을 위한 영상 생성 장치 및 방법

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620872B2 (en) 2015-08-03 2023-04-04 Angel Group Co., Ltd. Fraud detection system in a casino
US11657674B2 (en) 2015-08-03 2023-05-23 Angel Group Go., Ltd. Fraud detection system in casino
US11657673B2 (en) 2015-08-03 2023-05-23 Angel Group Co., Ltd. Fraud detection system in a casino
US11727750B2 (en) 2015-08-03 2023-08-15 Angel Group Co., Ltd. Fraud detection system in a casino
US11741780B2 (en) 2015-08-03 2023-08-29 Angel Group Co., Ltd. Fraud detection system in a casino
US11189015B2 (en) 2018-05-30 2021-11-30 Samsung Electronics Co., Ltd. Method and apparatus for acquiring feature data from low-bit image
US11636575B2 (en) 2018-05-30 2023-04-25 Samsung Electronics Co., Ltd. Method and apparatus for acquiring feature data from low-bit image
US11893497B2 (en) 2018-05-30 2024-02-06 Samsung Electronics Co., Ltd. Method and apparatus for acquiring feature data from low-bit image
KR102109855B1 (ko) * 2019-03-06 2020-05-12 서울대학교산학협력단 Sift 구분자를 활용한 실내도면 이미지에서의 텍스트 정보 구축 방법

Also Published As

Publication number Publication date
EP2731054A2 (en) 2014-05-14
US20140132799A1 (en) 2014-05-15
CN103810471B (zh) 2018-11-13
CN103810471A (zh) 2014-05-21
US9628660B2 (en) 2017-04-18
EP2731054A3 (en) 2016-04-20
EP2731054B1 (en) 2019-09-25
KR101992153B1 (ko) 2019-06-25

Similar Documents

Publication Publication Date Title
KR101992153B1 (ko) 문서 영상 인식 방법, 장치 및 이를 이용한 사진 촬영 방법
AU2017261537B2 (en) Automated selection of keeper images from a burst photo captured set
EP3152706B1 (en) Image capturing parameter adjustment in preview mode
CN106228168B (zh) 卡片图像反光检测方法和装置
CN106295638A (zh) 证件图像倾斜校正方法和装置
JP4626692B2 (ja) 物体検出装置、撮像装置、物体検出方法およびプログラム
JP4539597B2 (ja) 画像処理装置、画像処理方法および撮像装置
US9569831B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium for extracting information embedded in a printed material
CN104463103B (zh) 图像处理方法及装置
RU2643464C2 (ru) Способ и устройство для классификации изображений
US8948452B2 (en) Image processing apparatus and control method thereof
CN106296665B (zh) 卡片图像模糊检测方法和装置
CN110569835A (zh) 一种图像识别方法、装置和电子设备
CN112232260A (zh) 字幕区域识别方法、装置、设备及存储介质
CN105528765A (zh) 处理图像的方法及装置
JP2007265149A (ja) 画像処理装置、画像処理方法および撮像装置
JP5441669B2 (ja) 画像処理装置及びその制御方法
CN112163554A (zh) 获取视频中的标记掩模的方法和装置
CN111723627A (zh) 一种图像处理方法、装置和电子设备
KR101506614B1 (ko) 악보 인식이 가능한 이동 단말 및 그 제어방법
CN117953508A (zh) 文本图像的ocr识别方法、电子设备及介质
CN116343241A (zh) 对象真伪识别方法、装置、存储介质及电子设备
CN117953520A (zh) 表格检测方法、装置、电子设备、存储介质及芯片
CN116453172A (zh) 图像处理方法、装置、电子设备及存储介质
JP2008083437A (ja) 表示装置、撮像装置、表示方法、及び表示処理プログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant