KR20150037374A - 카메라로 촬영한 문서 영상을 스캔 문서 영상으로 변환하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 - Google Patents
카메라로 촬영한 문서 영상을 스캔 문서 영상으로 변환하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 Download PDFInfo
- Publication number
- KR20150037374A KR20150037374A KR20130116902A KR20130116902A KR20150037374A KR 20150037374 A KR20150037374 A KR 20150037374A KR 20130116902 A KR20130116902 A KR 20130116902A KR 20130116902 A KR20130116902 A KR 20130116902A KR 20150037374 A KR20150037374 A KR 20150037374A
- Authority
- KR
- South Korea
- Prior art keywords
- document
- camera
- document image
- converting
- text line
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 59
- 238000010586 diagram Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000005457 optimization Methods 0.000 description 6
- 238000005452 bending Methods 0.000 description 3
- 230000008570 general process Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/06—Topological mapping of higher dimensional structures onto lower dimensional surfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/04—Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Studio Devices (AREA)
- Facsimile Scanning Arrangements (AREA)
- Character Input (AREA)
- Geometry (AREA)
Abstract
본 발명은 일반 카메라로 촬영한 문서 영상을 이용하여 스캔 문서를 생성하는 방법 및 그 장치에 대한 것으로, 일반 카메라로 촬영한 한 장의 문서 영상으로부터 텍스트 라인을 추출하고, 추출된 텍스트라인을 스캔 문서 평면 상으로 투영 시키는 투영식을 최적화시키는 파라미터를 산출함으로써, 스캐너(scanner) 없이도 비정형 문서 영상을 스캔 문서로 변환하는 방법 및 장치를 제공한다.
Description
본 발명은 일반 카메라로 촬영한 문서 영상을 이용하여 스캔 문서를 생성하는 방법 및 그 장치에 대한 것으로, 보다 상세하게는, 일반 카메라로 촬영한 한 장의 문서 영상으로부터 텍스트 라인을 추출하고, 추출된 텍스트라인을 스캔 문서 평면 상으로 투영 시키는 투영식을 최적화시키는 파라미터를 산출함으로써, 스캐너(scanner) 없이도 비정형 문서 영상을 스캔 문서로 변환하는 방법 및 장치에 관한 것이다.
문서를 디지털화하기 위해서는 평판 스캐너(flatbed scanner)를 이용하는 방법이 일반적이다. 하지만, 평판 스캐너의 경우 휴대가 어렵고 제한적인 환경에서만 사용 가능하다는 단점이 있으며 이를 극복하기 위해 휴대용 스캐너(portable scanner)가 개발되었지만 가격이 비싸고, 휴대용 스캐너의 경우 크기 제한이 있으며 낱장으로 된 문서만 스캔 가능한 경우가 많다.
따라서, 스캐너 없이 스캔 문서를 생성하기 위해 디지털 카메라로 촬영한 문서의 영상을 이용하는 방법이 개발되고 있다. 디지털 카메라를 이용하는 스캔 문서 생성 방법은 영상 취득 과정이 용이하다는 장점이 있지만, 영상을 취득하는 환경 등에 따라 취득된 영상에 여러 가지 왜곡이 발생하게 된다.
상술한 바와 같이 디지털 카메라를 이용하는 스캔 문서 생성 방법은 영상 취득 과정이 용이하다는 장점이 있지만, 영상을 취득하는 환경 등에 따라 취득된 영상에 여러 가지 왜곡이 발생하게 된다.
본 발명은 전술한 종래 기술의 문제점을 해결하며, 한장의 문서 영상을 이용하여, 규격화된 형태를 가지지 않는 문서에 대해서도 효과적으로 스캔 문서를 생성할 수 있도록 하는 것을 그 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법은, 카메라를 이용하여 촬영된 문서 영상을 획득하는 단계; 획득된 문서 영상에서 텍스트 라인을 추출하는 단계; 추출된 텍스트라인을 구성하는 각 점들의 위치를 스캔 문서 평면에서의 좌표로 변환해주는 투영식을 결정하는 단계; 결정된 투영식을 이용하여 투영된 텍스트 라인과 실제 텍스트 라인의 차이를 계산하는 목적 함수를 결정하는 단계; 결정된 목적함수를 최소화하는 파라미터들을 산출하는 단계; 및 산출된 파라미터들을 투영식에 대입하여, 획득된 문서 영상을 스캔 문서로 변환하는 단계;를 포함한다.
본 발명의 또 다른 실시예에 따르면, 투영식은, (a) 문서 영상의 평면과 카메라가 이루는 각도, (b) 문서 영상의 단면 및 (c) 카메라의 초점 거리에 기초하여 결정되는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, (a)는 문서 영상의 평면과 카메라가 이루는 3차원 회전 각도 , (b)는 문서 단면을 근사화한 곡선, (c)는 카메라의 초점 거리 이며, 이 때, 문서 영상의 가로 방향은 x축, 투영 방향은 z축 방향이고, 는 문서 영상의 평면과 카메라가 x, y, z 축 각각에 대하여 이루는 각도인 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 목적함수(E)는, 이며, 이 때, 이고, 는 카메라로 촬영한 영상의 k 번째 텍스트 라인의 i번째 점을 문서 평면으로 투영해서 얻어지는 y 변환 좌표이고, 는 k 번째 텍스트 라인의 실제 문서 평면 상에서의 y 좌표인 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 목적 함수를 결정하는 단계는, 텍스트라인 사이의 간격의 균일성을 더 이용하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 목적함수(E)는, 이며, 이 때, , 이고, 는 카메라로 촬영한 영상의 k 번째 텍스트 라인의 i번째 점을 문서 평면으로 투영해서 얻어지는 y 변환 좌표이고, 는 k 번째 텍스트 라인의 실제 문서 평면 상에서의 y 좌표인 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 변환된 스캔 문서를 저장하는 단계를 더 포함한다.
본 발명의 또 다른 실시예에 따르면, 변환된 스캔 문서를 디스플레이하는 단계를 더 포함한다.
상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치는, 카메라를 이용하여 촬영된 문서 영상을 획득하는 문서 영상 획득부; 상기 획득된 문서 영상에서 텍스트 라인을 추출하는 텍스트 라인 추출부; 상기 추출된 텍스트라인을 구성하는 각 점들의 위치를 스캔 문서 평면에서의 좌표로 변환해주는 투영식을 결정하고, 결정된 투영식을 이용하여 투영된 텍스트 라인과 실제 텍스트 라인의 차이를 계산하는 목적 함수를 결정하는 결정부; 및 상기 결정된 목적함수를 최소화하는 파라미터들을 산출하고, 산출된 파라미터들을 투영식에 대입하여, 획득된 문서 영상을 스캔 문서로 변환하는 스캔 문서 변환부;를 포함한다.
본 발명의 또 다른 실시예에 따르면, 투영식은, (a) 문서 영상의 평면과 카메라가 이루는 각도, (b) 문서 영상의 단면 및 (c) 카메라의 초점 거리에 기초하여 결정되는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, (a)는 문서 영상의 평면과 카메라가 이루는 3차원 회전 각도, (b)는 문서 단면을 근사화한 곡선, (c)는 카메라의 초점 거리 이며, 이 때, 문서 영상의 가로 방향은 x축, 투영 방향은 z축 방향이고, 는 문서 영상의 평면과 카메라가 x, y, z 축 각각에 대하여 이루는 각도인 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 목적함수(E)는, 이며, 이 때, 이고, 는 카메라로 촬영한 영상의 k 번째 텍스트 라인의 i번째 점을 문서 평면으로 투영해서 얻어지는 y 변환 좌표이고, 는 k 번째 텍스트 라인의 실제 문서 평면 상에서의 y 좌표인 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 결정부는, 텍스트라인 사이의 간격의 균일성을 더 이용하여 목적함수(E)를 결정하는 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 목적함수(E)는, 이며, 이 때, , 이고, 는 카메라로 촬영한 영상의 k 번째 텍스트 라인의 i번째 점을 문서 평면으로 투영해서 얻어지는 y 변환 좌표이고, 는 k 번째 텍스트 라인의 실제 문서 평면 상에서의 y 좌표인 것을 특징으로 한다.
본 발명의 또 다른 실시예에 따르면, 변환된 스캔 문서를 저장하는 저장부를 더 포함한다.
본 발명의 또 다른 실시예에 따르면, 변환된 스캔 문서를 디스플레이하는 디스플레이부를 더 포함한다.
한편, 본 발명의 일 실시예에 따르면, 전술한 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 별도의 스캐너 없이도 일반 디지털 카메라로 촬영한 한 장의 문서 영상을 이용하여, 문서의 규격화 여부와 무관하게 스캔 문서를 생성할 수 있다.
도 1 은 일반 카메라로 촬영한 문서 영상과 스캔 문서를 나타내는 도면이다.
도 2 는 일반 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 간략한 과정을 나타내는 흐름도이다.
도 3 은 일반 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 종래 기술에 대한 도면이다.
도 4 는 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치의 세부 구성도이다.
도 5 는 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 순서도이다.
도 6 은 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상에서 텍스트 라인을 추출한 결과에 대한 도면이다.
도 7 은 본 발명의 일 실시예에 따른 문서 영상에서 추출한 텍스트 라인의 좌표가 카메라로 촬영한 영상의 좌표로 투영된 모식도이다.
도 8 은 본 발명의 일 실시예에 따른 곡선으로 나타나는 문서의 단면에 대한 모식도이다.
도 9 는 본 발명의 일 실시예에 따른 문서 영상에서 추출한 텍스트 라인과 투영된 텍스트 라인을 나타내는 도면이다.
도 10 은 본 발명의 또 다른 실시예에 따른 문서 영상에서 추출한 텍스트 라인 사이의 간격을 나타내는 도면이다.
도 11 은 본 발명의 또 다른 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 순서도이다.
도 2 는 일반 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 간략한 과정을 나타내는 흐름도이다.
도 3 은 일반 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 종래 기술에 대한 도면이다.
도 4 는 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치의 세부 구성도이다.
도 5 는 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 순서도이다.
도 6 은 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상에서 텍스트 라인을 추출한 결과에 대한 도면이다.
도 7 은 본 발명의 일 실시예에 따른 문서 영상에서 추출한 텍스트 라인의 좌표가 카메라로 촬영한 영상의 좌표로 투영된 모식도이다.
도 8 은 본 발명의 일 실시예에 따른 곡선으로 나타나는 문서의 단면에 대한 모식도이다.
도 9 는 본 발명의 일 실시예에 따른 문서 영상에서 추출한 텍스트 라인과 투영된 텍스트 라인을 나타내는 도면이다.
도 10 은 본 발명의 또 다른 실시예에 따른 문서 영상에서 추출한 텍스트 라인 사이의 간격을 나타내는 도면이다.
도 11 은 본 발명의 또 다른 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 순서도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다.
예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다.
도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1 은 일반 카메라로 촬영한 문서 영상과 스캔 문서를 나타내는 도면이다. 이 중 도 1(a) 및 도 1(b)는 일반 카메라로 촬영한 문서 영상에 대한 도면이며, 도 1(c)는 스캔 문서에 대한 도면이다.
도 1(a) 및 (b)를 참고하면, 일반 카메라로 촬영한 문서 영상(110 및 120)의 경우, 카메라 렌즈와 문서의 상대적 위치에 따른 상의 왜곡이 발생하거나, 문서 영상이 곡면형태로 취득되는 경우가 일반적이다. 특히 피사체의 표면이 임의의 형태로 촬영되기 때문에 기하학적 왜곡 또는 시선(렌즈) 방향에 의한 왜곡이 발생한다.
반면 도 1(c)를 참고하면, 스캔 문서의 경우 전체적으로 조도가 일정하며 편평한 표면을 가지기 때문에 문서의 왜곡이 적다. 스캔 문서는 왜곡이 적고 실제 문서와 유사한 형태를 가지기 때문에, 문서 자체의 분석이 용이하고 광학식 문자판독 기능(OCR: Optical Character Recognition)등을 이용한 추가적인 데이터의 획득이 용이하다. 또한 문서의 보존에 적합하며 전자책(e-book)등에 활용될 수 있다.
그러나, 카메라를 이용하는 방법은 스캐너를 이용하는 방법에 비해 많은 장점을 갖는다. 우선, 스캐너와 비교해 카메라는 작고 휴대성이 뛰어나며 빠르고 쉽게 영상을 취득할 수 있다. 최근 고성능 카메라 모듈이 탑재된 휴대폰이 널리 보급되고 있는 환경에서는 더욱 그러하다. 또한, 먼 거리에서도 촬영이 가능해 대상(문서)에 접촉하지 않고 영상을 취득할 수 있다.
따라서, 카메라를 이용하여 스캔 문서를 획득하는 경우 용이하게 영상을 획득하면서도 왜곡을 보정하여 문서의 활용성을 높이는 두 가지 방법의 장점을 모두 가질 수 있다. 이러한 방법을 적절히 활용하면 개인용 휴대 복사기 또는 스캐너의 기능을 할 수 있고, OCR 기능을 추가함으로써 번역기나 장애인을 위한 독서기 등에 적용할 수 있다.
도 2 는 일반 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 간략한 과정을 나타내는 흐름도이다.
사용자는 일반 카메라, 특히 디지털 카메라 등을 이용하여 촬영한 문서의 영상을 획득한다(210). 획득된 문서 영상은 평활화(dewarping) 과정을 거쳐(220) 스캔 문서로 변환(230)되며, 상술할 바와 같이 스캔 된 문서는 왜곡이 적고 실제 문서와 유사한 형태를 가지므로 OCR 등을 통해 추가 정보를 추출하거나 문서 보존을 위해 저장하는 과정(240)을 거치게 된다.
평활화(dewarping)란, 피사체 자체가 가지고 있는 기하학적인 왜곡(geometric distortion)과 카메라의 투영 과정에서 발행하는 시선방향 왜곡(perspective distortion) 때문에 나타나는 문제점을 해결하기 위한 데이터 처리 기법을 의미한다.
특히, 먼 거리에서 편평한 문서를 촬영하는 경우는 더 많은 왜곡이 발생하게 된다. 그 중 어안 효과(fish eye effect)는 수평 및 수직 라인이 곡선이 되는 주요 원인이 된다. 이러한 왜곡이 발생한 경우 수평 및 수직 라인이 있는 평평한 페이지 영상을 이용하여 그 차이를 보정하게 된다.
텍스트 라인을 추출하고 이를 이용하여 문서를 평활화 하는 방법들은 텍스트 라인이 서로 평행한 직선이라는 사실을 이용하거나, 텍스트 라인과 라인 사이의 간격이 일정하다는 사실을 이용할 수 있다.
도 3 은 일반 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 종래 기술에 대한 도면이다.
도 3(a)는 문서의 위치를 변형하거나 촬영하는 카메라의 위치를 변형하며 촬영한 두 장 이상의 문서 영상을 이용하는 변환 방법이다. 예를 들어, 촬영 대상인 원본 문서(300)를 왼쪽 방향에서 촬영한 문서 영상과 오른쪽 방향에서 촬영한 문서 영상을 이용하는 것이다.
카메라와 서로 다른 상대적 위치를 갖는 두 장 이상의 문서 영상을 이용하면 원본 문서의 3차원 형태를 계산할 수 있다. 이와 같이 문서의 3차원 형태가 계산되면 문서 표면의 텍스쳐를 평면으로 복원할 수 있으며 이를 이용하여 스캔 문서로 변환이 가능하다.
그러나 이와 같은 방법은 반드시 두 장 이상의 문서 영상이 필요하다. 원본 문서를 가지고 있어 새로운 문서 영상의 촬영이 가능한 상황이라면 큰 문제가 되지 않지만, 기존에 문서를 촬영한 한장의 문서 영상이 존재하는 경우는 이를 이용한 스캔 문서로의 변환이 불가능하다.
도 3(b)는 한 장의 문서 영상을 이용하는 변환 방법이지만, 규격화된 문서에만 적용될 수 있는 방법이다. 원본 문서(300)가 하나의 단락을 가지고 이 단락의 형태가 사각형임을 미리 알고 있는 경우, 문서 단락이 이루는 이 사각형의 네 변을 추정하게 된다.
실제의 책은 평면 형태이기 보다는 구부러진 형태이므로 문서의 단락이 이루는 사각형의 네 변은 실제로는 평면이 아니고, 이를 촬영한 문서 영상에서의 네 변은 곡선으로 이루어지게 된다.
네 변의 곡선을 추정하는 방법은 다양하나, 주로 텍스트 영역을 추출하고 이 영역을 둘러싼 가장 유사한 곡선(310)을 추출하는 방법이 주로 이용된다. 또한, 단락 영역을 둘러싼 곡선을 추출하기 위한 방법으로는 도3(c)에 도시된 바와 같이 제 변의 모서리(311, 312, 313 및 314)를 추출하고, 각 선이 이루는 곡률을 계산하는 방법이 주로 이용된다.
이렇게 네 변이 이루는 곡선을 추출한 후 이와 같이 곡선으로 둘러싸인 영역을 정확한 직사각형 형태로 변환(320)하여, 스캔 문서를 획득하게 된다.
그러나, 도 3(b) 및 도 3(c)에 의한 기술 역시 도 3(a)에 의한 기술과 마찬가지로 적용 가능한 문서의 형태가 한정되어 있다. 문서의 단락이 균일하게 사각형을 이루는 경우에만 적용 가능하며, 문서의 단락이 여러 개가 존재하는 경우에는 이와 같은 기술을 적용하는 것이 쉽지 않다.
또한, 단락을 둘러싼 네 변의 곡선을 추정하는 것이 용이하기 아니하며 오류가 발생하기 쉬운데, 이 때 네 변의 곡선의 위치에 작은 오류라도 발생하는 경우 결과 영상에 현격한 품질 저하가 일어나게 된다.
도 4 는 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치의 세부 구성도이다.
도 4 에 도시된 바와 같이, 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치(400)는 문서 영상 획득부(410), 텍스트 라인 추출부(420), 결정부(430), 스캔 문서 변환부(440), 저장부(450), 표시부(460) 및 제어부(470)를 포함한다.
문서 영상 획득부(410)는, 일반 카메라로 촬영한 원본 문서의 영상을 획득한다.
문서 영상 획득부(410)는, 카메라와 연결되어 촬영된 문서 영상을 바로 획득할 수 있다. 이와 같은 경우 외장 모듈의 형태로 카메라와 연결될 수 있으며, 카메라에 내장된 형태일 수 있다.
또는, 미리 촬영되어 저장되어 있는 문서 영상을 획득할 수 있는데, 이와 같은 경우 저장부(450)에 저장되어 있는 문서 영상일 수 있으며, 별도의 장치, 메모리 또는 외부 서버 등에 저장되어 있는 문서 영상일 수 있으나 이에 한정되지 않는다.
텍스트 라인 추출부(420)는, 문서 영상 획득부(410)를 통해 획득된 문서 영상으로부터 문서를 구성하는 텍스트 라인을 추출하는 영상 처리를 수행한다.
편평하게 펼쳐진 종이에 인쇄된 문서에서, 글자가 이루는 텍스트 라인은 직선이지만, 펼쳐진 책과 같이 기하학적으로 왜곡된 표면을 카메라로 촬영하면 텍스트 라인이 곡선의 형태를 띄게 된다. 따라서 텍스트 라인이 휘어진 정도로부터 문서의 표면이 왜곡된 정도를 추정할 수 있으며, 이를 바탕으로 텍스트 라인을 직선화시켜 문서 평활화를 수행한다.
텍스트라인을 추출하는 일반적 처리 과정은, 이진화, 텍스트 라인 추출, 깊이 추출 과정 등을 포함한다.
가장 먼저 문서 영상의 이진화를 수행한다. 이진화는 글자 혹은 그림 등이 인쇄된 전면 컨텐츠(foreground contents)와 후면 배경을 구별하기 위한 것이다. 가장 기초적으로 전체 픽셀에 동일한 문턱치(thereshold)를 적용하여 이진화 하는 방법이 있으며, 좀 더 발전된 방법으로는 각각의 픽셀에 적용할 문턱치를 적응적으로 구하는 방법이 있다.
문서 영상을 이진화하여 전면으로 분류된 정보들을 이용하여 텍스트 라인을 추출하게 되는데, 연결 요소 분석(connected component analysis)을 이용하는 방법이 가장 많이 이용된다. 끊김 없이 이어진 덩어리를 하나의 글자로 인식하고, 문서의 왼쪽에서 오른쪽으로 수평적으로 이동하며 글자들을 연결 시킨다.
이 때, 텍스트 라인이 휘어진 것을 감안하여 수평에서 위 아래로 일정 각도안에서 글자를 탐색하는 방법이나 하강 문자를 고려하여 텍스트 라인을 추출하는 방법이 있다. 최근에는 형태학적으로 텍스트 라인의 형태를 찾아내는 방법이 많이 이용되고 있다.
텍스트 라인이 추출되면, 추출한 텍스트 라인의 휘어진 정도를 파악하고 직선화 함으로써 문서 영상을 평활화 할 수 있다.
결정부(430)는, 텍스트 라인 추출부(420)를 통해 추출된 텍스트 라인을 구성하는 각 점들의 위치를 스캔 문서 상의 평면에서의 좌표로 변환해주는 투영식 및 투영식을 이용하여 투영된 텍스트 라인과 실제 텍스트 라인의 차이를 계산하는 목적 함수를 결정한다. 또한 본 발명의 또 다른 실시예에 따르면, 결정부(430)는 투영식을 이용하여 투영된 텍스트 라인의 차이와 텍스트 라인 사이의 균일성을 계산하는 목적 함수를 더 결정할 수 있다.
투영식은, 문서를 촬영한 카메라와 문서 영상의 평면이 이루는 3차원 각도, 문서 영상의 단면 및 문서를 촬영한 카메라의 초점 거리에 기초하여 결정된다.
상술한 바와 같은 각 파라미터들(문서를 촬영한 카메라와 문서 영상의 평면이 이루는 3차원 각도, 문서 영상의 단면 및 문서를 촬영한 카메라의 초점 거리)의 정확한 값을 알고 있다면, 이를 투영식에 대입하여 최적의 스캔 변환 문서를 획득할 수 있다. 그러나, 이와 같은 파라미터들의 정확한 값을 알 수 없기 때문에 최적의 파라미터들을 산출하기 위한 목적 함수가 필요하다.
목적 함수는, 최적의 스캔 변환 문서를 획득하기 위한 파라미터들을 산출하도록 결정된다. 목적 함수는 텍스트 라인 추출부(420)에서 추출된 텍스트 라인을 결정부(430)에서 결정된 투영식을 이용해 문서 평면에 투영했을 때 얻어지는 좌표들이 수평한 직선을 이룰 것이라는 가정을 이용한다. 그 이유는 일반적으로 스캔 문서에서는 텍스트 라인들이 수평한 직선을 이루기 때문이다.
본 발명의 일 실시예에 따르면, 목적 함수는 카메라로 촬영한 문서 영상에서 추출된 텍스트 라인의 각 점과, 해당 점을 스캔 문서 평면 위의 수평선 위의 좌표로 변환한 좌표의 차이를 계산하도록 설계된다. 이 때, 각각의 목적함수들을 최소화하는 파라미터들은 여러가지 비선형 최적화 방법을 통하여 산출할 수 있다.
이와 같이 구한 파라미터는 텍스트라인 사이의 간격을 고려하지 않고 투영된 텍스트라인들이 수평선을 이루는지 여부만 판단하기 때문에 문서 평면의 법선 벡터를 추정하기 어려울 수 있다.
본 발명의 또 다른 일 실시예에 따르면, 목적 함수는 카메라로 촬영한 문서 영상에서 추출된 텍스트 라인의 각 점과, 해당 점을 스캔 문서 평면 위의 수평선 위의 좌표로 변환한 좌표의 차이 및 추출된 텍스트 라인 각각의 거리의 균일성을 계산하도록 설계된다.
본 발명의 또 다른 일 실시예에 따르면, 결정부는 파라미터 결정을 위한 1단계로 카메라로 촬영한 문서 영상에서 추출된 텍스트 라인의 각 점과, 해당 점을 스캔 문서 평면 위의 수평선 위의 좌표로 변환한 좌표의 차이가 최소가 되는 파라미터를 산출한다. 파라미터 결정을 위한 2 단계에서는, 1 단계에서 구한 파라미터를 초기값으로 이용하여, 추출된 텍스트 라인 각각의 거리의 균일성을 추가로 이용한 목적 함수를 최적화하는 파라미터를 계산함으로써, 파라미터를 개선 및 갱신할 수 있다.
스캔 문서 변환부(440)는, 결정부(430)에서 계산된 목적함수를 최적화하는 파라미터들을, 결정부(430)에서 결정된 투영식에 대입함으로써 문서 영상 획득부(410)를 통해 획득된 카메라로 촬영된 문서 영상을 스캔 문서로 변환한다.
저장부(450)는, 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치(400)이 카메라로 촬영한 문서 영상을 스캔 문서로 변환하기 위해 필요한 각종의 정보를 결정하고 표시할 수 있도록, 각종의 정보를 저장한다.
예를 들어 저장부(450)는, 문서 영상 획득부(410)를 통해 획득된 문서 영상을 휘발성 메모리에 임시로 저장하여 변환 과정에서 보다 용이하게 데이터를 로드할 수 있도록 하거나, 획득된 문서 영상을 비휘발성 메모리에 저장하여 추후 필요한 때 스캔 문서로 변환하도록 할 수 있다.
또한 저장부(450)는, 텍스트 라인 추출부(420)에서 추출된 텍스트 라인이나 결정부(430)에서 결정된 투영식, 목적함수 또는 파라미터 등을 저장할 수 있고, 스캔 문서 변환부(440)에서 변환된 스캔 문서를 저장할 수 있다.
표시부(460)는, 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 과정에 대한 정보를 표시하여 사용자가 현재 상태를 확인할 수 있도록 하도록 하거나, 변환된 스캔 문서를 표시함으로써 사용자가 변환 결과를 확인할 수 있도록 한다.
제어부(470)는, 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치(400) 전체의 동작을 제어하며, 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치(400)이 카메라로 촬영한 문서 영상을 스캔 문서로 변환할 수 있도록 문서 영상 획득부(410), 텍스트 라인 추출부(420), 결정부(430), 스캔 문서 변환부(440), 저장부(450) 및 표시부(460)를 제어한다.
도 5 는 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 순서도이다.
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법은 제일 먼저, 문서 영상 획득부(410)를 통해 문서 영상을 획득한다(510). 획득된 문서 영상은 일반 카메라, 특히 디지털 카메라 등을 이용하여 촬영된 문서 영상으로 문서 자체의 기하학적인 왜곡(geometric distortion)과 카메라의 투영 과정에서 발행하는 시선방향 왜곡(perspective distortion)을 가지고 있다.
이 때, 문서 영상은 외장 모듈의 형태로 연결된 카메라 또는 내장형 카메라 등을 이용해 실시간으로 획득될 수 있으며, 또 다른 실시예에 따르면 저장부(450)에 저장되어 있는 문서 영상일 수 있다. 또는 통신모듈 등을 이용해 별도의 장치, 메모리 또는 외부 서버 등에 저장되어있는 문서 영상을 수신할 수 있으나 이에 한정되는 것은 아니다.
문서 영상이 획득되면, 획득된 문서 영상에서 텍스트 라인을 추출(510)한다. 텍스트라인을 추출하는 일반적 처리 과정은, 이진화, 텍스트 라인 추출, 깊이 추출 등의 과정을 포함한다.
가장 먼저 문서 영상의 이진화를 수행한다. 이진화는 글자 혹은 그림 등이 인쇄된 전면 컨텐츠(foreground contents)와 후면 배경을 구별하기 위한 것이다. 가장 기초적으로 전체 픽셀에 동일한 문턱치를 적용하여 이진화 하는 방법이 있으며, 좀 더 발전된 방법으로는 각각의 픽셀에 적용할 문턱치를 적응적으로 구하는 방법이 있다.
문서 영상을 이진화하여 전면으로 분류된 정보들을 이용하여 텍스트 라인을 추출하게 되는데, 연결 요소 분석(connected component analysis)을 이용하는 방법이 가장 많이 이용된다. 끊김 없이 이어진 덩어리를 하나의 글자로 인식하고, 문서의 왼쪽에서 오른쪽으로 수평적으로 이동하며 글자들을 연결 시킨다.
이 때, 텍스트 라인이 휘어진 것을 감안하여 수평에서 위 아래로 일정 각도 안에서 글자를 탐색하는 방법이나 하강 문자를 고려하여 텍스트 라인을 추출하는 방법이 있다. 최근에는 형태학적으로 텍스트 라인의 형태를 찾아내는 방법이 많이 이용되고 있다.
문서 영상의 텍스트 라인이 추출되면, 추출된 텍스트 라인을 스캔 문서상의 좌표로 투영시킬 투영식을 결정(530)한다.
투영식은, 문서를 촬영한 카메라와 문서 영상의 평면이 이루는 3차원 회전 각도, 문서 영상의 단면이 이루는 곡선을 다항식 으로 근사할 때 이 다항식의 계수 및 문서를 촬영한 카메라의 초점 거리에 기초하여 결정된다.
투영식이 결정되면, 투영식에 대입할 최적의 파라미터를 계산하기 위한 목적함수를 결정(540)한다.
상술한 바와 같은 각 파라미터들(문서를 촬영한 카메라와 문서 영상의 평면이 이루는 3차원 각도, 문서 영상의 단면 및 문서를 촬영한 카메라의 초점 거리)의 정확한 값을 알고 있다면, 이를 투영식에 대입하여 최적의 스캔 변환 문서를 획득할 수 있다. 그러나, 이와 같은 파라미터들은 촬영 환경 및 조건에 의해 결정되는 겻으로, 투영식이 결정되더라도 파라미터들의 정확한 값은 알 수 없기 때문에 최적의 파라미터들을 산출하기 위한 목적 함수가 필요하다.
목적 함수는, 최적의 스캔 변환 문서를 획득하기 위한 파라미터들을 산출하도록 결정된다. 목적 함수는 텍스트 라인 추출부(420)에서 추출된 텍스트 라인을 결정부(430)에서 결정된 투영식을 이용해 문서 평면에 투영했을 때 얻어지는 좌표들이 수평한 직선을 이룰 것이라는 가정을 이용한다. 그 이유는 일반적으로 스캔 문서에서는 텍스트 라인들이 수평한 직선을 이루기 때문이다.
목적 함수는 투영식을 이용하여 투영된 텍스트 라인과 실제 텍스트 라인의 차이를 이용하여 결정될 수 있다. 또한 본 발명의 또 다른 실시예에 따르면, 결정부(430)는 투영식을 이용하여 투영된 텍스트 라인의 차이와 텍스트 라인 사이의 균일성을 더 이용하여 목적 함수를 더 결정할 수 있다.
목적 함수가 결정되면, 목적 함수를 최소화하는 파라미터를 산출(550)한다.
본 발명의 실시예에 따르면, 목적 함수는 투영식을 이용하여 투영된 텍스트 라인과 실제 텍스트 라인의 차이 또는 투영식을 이용하여 투영된 텍스트 라인의 차이와 텍스트 라인 사이의 균일성을 이용하여 결정되므로 목적 함수가 작은 값을 가질수록 좋은 품질의 스캔 영상을 얻을 수 있게 된다.
목적 함수에 대하여 여러가지 비선형 최적화 방법을 적용함으로써 최적화된 파라미터를 구할 수 있으며, 본 발명의 실시예에 따른 목적 함수는 미분 가능한 형태로 이루어져 있기 때문에 최적화 과정에서 필수적으로 필요한 각 파라미터에 대한 미분값도 계산이 가능하다.
목적 함수를 최적화시키는 파라미터가 산출되면, 산출된 파라미터를 단계 530에서 결정된 투영식에 대입하여 투영식을 완성한 후 이를 이용하여 문서 영상을 스캔 문서로 변환(560)한다. 이 단계를 거치면 최종 결과 영상이 획득된다.
문서 영상이 스캔 문서로 변환되면, 필요에 따라 변환된 스캔 문서를 저장부(450)에 저장하여 보존하도록 하거나, 표시부(460)에 표시하여 사용자가 변환된 스캔 문서를 확인할 수 있도록 할 수 있다(570).
이하 도 6 내지 도 10 에 기초하여 도 5 의 각 단계를 구체적으로 설명한다.
도 6 은 본 발명의 일 실시예에 따른 카메라로 촬영한 문서 영상에서 텍스트 라인을 추출한 결과에 대한 도면이다.
도 6 에 도시된 바와 같이 편평하게 펼쳐진 종이에 인쇄된 문서에서, 글자가 이루는 텍스트 라인(text line)은 직선이지만, 펼쳐진 책과 같이 기하학적으로 왜곡된 표면을 카메라로 촬영하는 경우 또는 카메라와 원본 문서가 이루는 각도에 따라 시선 방향 왜곡이 발생가는 경우 텍스트 라인이 곡선의 형태를 띌 수 있다. 따라서 텍스트 라인이 휘어진 정도로부터 문서의 표면이 왜곡된 정도를 추정할 수 있으며, 이를 바탕으로 텍스트 라인을 직선화시켜 문서 평활화를 수행한다.
텍스트라인을 추출하는 일반적 처리 과정은, 이진화, 텍스트 라인 추출, 깊이 추출 및 평활화 과정을 포함한다.
가장 먼저 문서 영상의 이진화를 수행한다. 이진화는 글자 혹은 그림 등이 인쇄된 전면 컨텐츠(foreground contents)와 후면 배경을 구별하기 위한 것이다. 가장 기초적으로 전체 픽셀에 동일한 문턱치를 적용하여 이진화 하는 방법이 있으며, 좀 더 발전된 방법으로는 각각의 픽셀에 적용할 문턱치를 적응적으로 구하는 방법이 있다.
문서 영상을 이진화하여 전면으로 분류된 정보들을 이용하여 텍스트 라인을 추출하게 되는데, 연결 요소 분석(connected component analysis)을 이용하는 방법이 가장 많이 이용된다. 끊김 없이 이어진 덩어리를 하나의 글자로 인식하고, 문서의 왼쪽에서 오른쪽으로 수평적으로 이동하며 글자들을 연결 시킨다.
이 때, 텍스트 라인이 휘어진 것을 감안하여 수평에서 위 아래로 일정 각도안에서 글자를 탐색하는 방법이나 하강 문자를 고려하여 텍스트 라인을 추출하는 방법이 있다. 최근에는 형태학적으로 텍스트 라인의 형태를 찾아내는 방법이 많이 이용되고 있다.
텍스트 라인이 추출되면, 추출한 텍스트 라인의 휘어진 정도를 파악하고 직선화 함으로써 문서 영상을 평활화 할 수 있다.
도 7 및 도 8 은 본 발명의 일 실시예에 따른 투영식을 결정하는 방법을 설명하기 위한 도면이다.
도 7 은 본 발명의 일 실시예에 따른 문서 영상에서 추출한 텍스트 라인의 좌표(721)가 카메라로 촬영한 영상의 좌표(711)로 투영된 모식도이며, 도 8은 본 발명의 일 실시예에 따른 곡선으로 나타나는 문서의 단면에 대한 모식도이다.
도 7 및 도 8 에 도시된 바와 같이 문서는 x-y 평면에 위치하고, x 축 방향으로 곡선을 가질 수 있으며 문서의 곡선 형태에 따라 텍스트 라인 역시 x 축 방향으로 곡선을 가질 수 있다. 또한, 투영 방향은 z 축 방향이라 가정한다.
투영식은, 문서를 촬영한 카메라와 문서 영상의 평면이 이루는 3차원 회전 각도, 문서 영상의 단면이 이루는 곡선을 다항식 으로 근사할 때 이 다항식의 계수 및 문서를 촬영한 카메라의 초점 거리에 기초하여 결정된다.
문서를 촬영한 카메라와 문서 영상의 x, y, z 평면 각각이 이루는 3차원 각도 에 의해 문서 영상 평면과 이를 촬영한 카메라가 이루는 3차원 회전 행렬 이 결정되며 이 때, 은 다음과 같은 식으로 주어진다.
이 때, 도 7에 표시된 문서(720)의 표면은 다음의 식으로 표현될 수 있다.
이 식은 책과 같이 문서 표면이 자연스럽게 구부러진 경우뿐만 아니라, 전단지 혹은 명함과 같이 구부러지지 않은 평평한 문서도 모델링 할 수 있다.
이와 같은 방식으로 스캔 문서 평면(710)과 광선의 교점(711)을 구할 수 있으며, 이 때 구해지는 가 바로 카메라로 촬영한 영상의 좌표 k 번째 텍스트 라인의 i번째 점의 좌표를 를 스캔 문서 표면으로 투영할 때 얻을 수 있는 변환 좌표가 된다.
도 9 및 도 10 은 본 발명의 일 실시예에 따른 목적 함수를 결정하는 방법 및 최적의 파라미터를 결정하는 방법을 설명하기 위한 도면이다.
도 9 는 본 발명의 일 실시예에 따른 문서 영상에서 추출한 텍스트 라인(912)과 투영된 텍스트 라인(911)을 나타내는 도면이다.
도 9 에 도시된 바와 같이 문서(900)의 단락(910) 안에서 투영된 텍스트 라인(911)은 실제 텍스트 라인(912)와 정확히 일치하지 않는다. 이는, 투영된 텍스트 라인은, 문서 영상의 왜곡 및 원본 문서의 휘어짐에 의해 곡선의 형태를 가지는 경우가 많은 반면 스캔 문서의 실제 텍스트 라인은 수평한 직선의 형태를 갖기 때문이다.
따라서, 변환된 스캔 문서가 좋은 품질을 갖는다면, 텍스트 라인에 존재하는 왜곡 등이 보정되어 투영된 텍스트 라인 역시 수평한 직선과 가까운 형태를 가질 것이다.
목적 함수 은 단계 520에서 추출한 텍스트 라인을 단계 530에서 결정한 투영식을 이용하여 스캔 문서 평면에 투영했을 때 얻어지는 좌표들이 수평한 직선을 이룰 것이라는 가정을 이용한다. 일반적으로 문서의 스캔본에서는 텍스트 라인이 수평한 직선이기 때문이다.
여기서, 이며, 는 상기 카메라로 촬영한 영상의 k 번째 텍스트 라인의 i번째 점을 문서 평면으로 투영해서 얻어지는 y 변환 좌표이고, 는 k 번째 텍스트 라인의 실제 스캔 문서 평면 상에서의 y 좌표를 나타낸다.
수식을 살펴보면, 상기 카메라로 촬영한 영상의 k 번째 텍스트 라인의 i번째 점을 문서 평면으로 투영해서 얻어지는 좌표 와 수평선인 실제 스캔 문서 평면상 좌표 의 차이의 제곱은 항상 양의 값을 갖게 되며, 각 점에서의 그 값을 합산한 것이 바로 목적함수가 되는 것이다.
즉, 위와 같은 목적 함수은 카메라로 촬영한 문서 영상에서 추출한 텍스트 라인의 각 점을 스캔 문서 평면 위의 좌표로 변환하였을 때, 변환된 좌표가 실제 수평선인 텍스트 라인에서 얼마나 벗어나는 지를 측정하는 지표가 되는 함수이다.
목적 함수 의 경우, 그 값이 작을수록 텍스트 라인이 수평선에 가까운 것을 의미하며 결국 변환된 스캔 문서의 품질이 좋음을 의미한다. 따라서, 목적 함수 을 최적화시키는 파라미터는, 이 최소값을 가지도록 하는 파라미터가 된다. 이 때, 목적함수 을 최소화하는 파라미터들은 여러가지 비선형 최적화 방법을 통하여 산출할 수 있다.
도 10 은 본 발명의 또 다른 실시예에 따른 문서 영상에서 추출한 텍스트 라인 사이의 간격을 나타내는 도면이다.
도 10 에 도시된 바와 같이 문서(1000)의 단락(1010) 안에는 여러 개의 텍스트 라인들이 존재(1011, 1012, 1013, 1014, …)하며, 이 때, 각 텍스트 라인 사이의 간격은 동일할 수 있지만, 서로 다를 수도 있다.
텍스트 라인 추출 단계에서, 텍스트 라인 사이의 간격이 불균일할 경우 텍스트 라인을 정확하게 추출하는 것이 어려울 수 있으며, 이는 최종 결과물인 변환된 스캔 문서의 품질을 저하시키는 원인이 될 수 있다.
목적 함수 은 텍스트라인 사이의 간격을 고려하지 않고 투영된 텍스트라인들이 수평선을 이루는지 여부만 판단하기 때문에 문서 평면의 법선 벡터를 추정하기 어려울 수 있다. 따라서, 목적 함수를 설계함에 있어서 텍스트 라인 사이의 간격, 특히 간격의 균일성을 고려하는 항을 추가하여 목적 함수 를 결정할 수 있다.
목적 함수 는 단계 520에서 추출한 텍스트 라인을 단계 530에서 결정한 투영식을 이용하여 스캔 문서 평면에 투영했을 때 얻어지는 좌표들이 수평한 직선을 이룰 것이라는 가정과 함께 텍스트 라인 사이의 간격이 균일할수록 변환된 스캔 문서의 품질이 우수하다는 가정을 이용한다.
여기서, , 이고, 는 상기 카메라로 촬영한 영상의 k 번째 텍스트 라인의 i번째 점을 문서 평면으로 투영해서 얻어지는 y 변환 좌표이고, 는 k 번째 텍스트 라인의 실제 문서 평면 상에서의 y 좌표를 의미한다. 추가된 항인 는 텍스트 라인 사이의 간격의 균일성을 측정하는 항으로, 에 의해 유도되며, 텍스트 라인 사이의 간격이 균일할수록 작은 절대값을 가진다.
즉, 위와 같은 목적 함수는 카메라로 촬영한 문서 영상에서 추출한 텍스트 라인의 각 점을 스캔 문서 평면 위의 좌표로 변환하였을 때, 변환된 좌표가 실제 수평선인 텍스트 라인에서 얼마나 벗어나는 지와 함께, 텍스트 라인 사이의 간격이 얼마나 균일한지를 측정하는 지표가 되는 함수이다.
목적 함수 의 경우, 그 값이 작을수록 텍스트 라인이 수평선에 가깝고, 텍스트 라인 사이의 간격이 균일한 것을 의미하며 결국 변환된 스캔 문서의 품질이 좋음을 의미한다. 따라서, 목적 함수 를 최적화시키는 파라미터는, 가 최소값을 가지도록 하는 파라미터가 된다. 이 때, 목적함수 를 최소화하는 파라미터들은 여러가지 비선형 최적화 방법을 통하여 산출할 수 있다.
도 11 은 본 발명의 또 다른 실시예에 따른 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법의 순서도이다.
도 11 의 순서도는 도 5 의 순서도와 유사하나, 목적 함수를 최적화하는 파라미터를 계산하기 위해 초기값을 이용하며, 새로 계산된 파라미터로 갱신하는 점에서 차이가 있다.
카메라로 촬영한 문서 영상을 획득(1110)하고, 획득된 문서 영상에서 텍스트 라인을 추출(1120)하고, 추출된 텍스트 라인을 스캔 문서상의 좌표로 투영시킬 투영식을 결정(1130)하는 과정은 도 5 에서 개시한 내용과 동일하다.
그러나, 투영식이 결정되면, 바로 목적 함수를 결정하는 것이 아니라 투영식에 대입할 최적의 파라미터의 ?珂璲?을 계산하기 위한 목적함수 을 결정(1140)한다. 이 때 목적함수 은 도 9 에서 설명한 것과 같다.
목적 함수 은 는 텍스트 라인 추출부(420)에서 추출된 텍스트 라인을 결정부(430)에서 결정된 투영식을 이용해 문서 평면에 투영했을 때 얻어지는 좌표들이 수평한 직선을 이룰 것이라는 가정을 이용한다. 그 이유는 일반적으로 스캔 문서에서는 텍스트 라인들이 수평한 직선을 이루기 때문이다.
따라서, 목적 함수 을 최적화시키는 파라미터 을 계산하여 최적 파라미터 를 결정(1150)한 후, 텍스트 라인 사이의 간격, 특히 간격의 균일성을 고려하는 항을 추가한 목적 함수 를 결정(1160)한다. 이 때 목적함수 는 도 10 에서 설명한 것과 같다.
최적 파라미터 가 갱신되면, 갱신된 최적 파라미터 를 단계 1130에서 결정된 투영식에 대입하여 투영식을 완성한 후 이를 이용하여 문서 영상을 스캔 문서로 변환(1190)한다. 이 단계를 거치면 최종 결과 영상이 획득된다.
비록 도 11 에 도시되지는 않았지만, 문서 영상이 스캔 문서로 변환되면, 필요에 따라 변환된 스캔 문서를 저장부(450)에 저장하여 보존하도록 하거나, 표시부(460)에 표시하여 사용자가 변환된 스캔 문서를 확인할 수 있도록 할 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.
Claims (21)
- 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법에 있어서,
카메라를 이용하여 촬영된 문서 영상을 획득하는 단계;
상기 획득된 문서 영상에서 텍스트 라인을 추출하는 단계;
상기 추출된 텍스트라인을 구성하는 각 점들의 위치를 스캔 문서 평면에서의 좌표로 변환해주는 투영식을 결정하는 단계;
상기 결정된 투영식을 이용하여 투영된 텍스트 라인과 실제 텍스트 라인의 차이를 계산하는 목적 함수를 결정하는 단계;
상기 결정된 목적함수를 최소화하는 파라미터들을 산출하는 단계; 및
상기 산출된 파라미터들을 상기 투영식에 대입하여, 획득된 문서 영상을 스캔 문서로 변환하는 단계;를 포함하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법.
- 제 1 항에 있어서, 상기 투영식은,
(a) 상기 문서 영상의 평면과 상기 카메라가 이루는 각도, (b) 상기 문서 영상의 단면 및 (c) 상기 카메라의 초점 거리에 기초하여 결정되는 것을 특징으로 하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법.
- 제 3 항에 있어서, 상기 목적 함수를 결정하는 단계는,
텍스트라인 사이의 간격의 균일성을 더 이용하는 것을 특징으로 하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법.
- 제 1 항에 있어서,
상기 변환된 스캔 문서를 저장하는 단계를 더 포함하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법.
- 제 1 항에 있어서,
상기 변환된 스캔 문서를 디스플레이하는 단계를 더 포함하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 방법.
- 카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치에 있어서,
카메라를 이용하여 촬영된 문서 영상을 획득하는 문서 영상 획득부;
상기 획득된 문서 영상에서 텍스트 라인을 추출하는 텍스트 라인 추출부;
상기 추출된 텍스트라인을 구성하는 각 점들의 위치를 스캔 문서 평면에서의 좌표로 변환해주는 투영식을 결정하고, 상기 결정된 투영식을 이용하여 투영된 텍스트 라인과 실제 텍스트 라인의 차이를 계산하는 목적 함수를 결정하는 결정부; 및
상기 결정된 목적함수를 최소화하는 파라미터들을 산출하고, 상기 산출된 파라미터들을 상기 투영식에 대입하여, 획득된 문서 영상을 스캔 문서로 변환하는 스캔 문서 변환부;를 포함하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치.
- 제 11 항에 있어서, 상기 투영식은,
(a) 상기 문서 영상의 평면과 상기 카메라가 이루는 각도, (b) 상기 문서 영상의 단면 및 (c) 상기 카메라의 초점 거리에 기초하여 결정되는 것을 특징으로 하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치.
- 제 13 항에 있어서, 상기 결정부는,
텍스트라인 사이의 간격의 균일성을 더 이용하여 목적함수(E)를 결정하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치.
- 제 11 항에 있어서,
상기 변환된 스캔 문서를 저장하는 저장부를 더 포함하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치.
- 제 11 항에 있어서,
상기 변환된 스캔 문서를 디스플레이하는 디스플레이부를 더 포함하는,
카메라로 촬영한 문서 영상을 스캔 문서로 변환하는 장치.
- 제 1 항 내지 제 10 항 중 어느 한 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130116902A KR102082301B1 (ko) | 2013-09-30 | 2013-09-30 | 카메라로 촬영한 문서 영상을 스캔 문서 영상으로 변환하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
US14/499,925 US9305211B2 (en) | 2013-09-30 | 2014-09-29 | Method, apparatus, and computer-readable recording medium for converting document image captured by using camera to dewarped document image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130116902A KR102082301B1 (ko) | 2013-09-30 | 2013-09-30 | 카메라로 촬영한 문서 영상을 스캔 문서 영상으로 변환하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150037374A true KR20150037374A (ko) | 2015-04-08 |
KR102082301B1 KR102082301B1 (ko) | 2020-02-27 |
Family
ID=52740249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130116902A KR102082301B1 (ko) | 2013-09-30 | 2013-09-30 | 카메라로 촬영한 문서 영상을 스캔 문서 영상으로 변환하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9305211B2 (ko) |
KR (1) | KR102082301B1 (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210061070A (ko) * | 2019-11-19 | 2021-05-27 | 네이버 주식회사 | 문서 이미지의 변환 장치 및 방법 |
US11223728B2 (en) | 2019-02-19 | 2022-01-11 | Samsung Electronics Co., Ltd | Electronic device for providing various functions through application using a camera and operating method thereof |
WO2022119128A1 (ko) * | 2020-12-03 | 2022-06-09 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11893611B2 (en) | 2016-05-25 | 2024-02-06 | Ebay Inc. | Document optical character recognition |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9767354B2 (en) | 2009-02-10 | 2017-09-19 | Kofax, Inc. | Global geographic information retrieval, validation, and normalization |
US8855375B2 (en) | 2012-01-12 | 2014-10-07 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US10146795B2 (en) | 2012-01-12 | 2018-12-04 | Kofax, Inc. | Systems and methods for mobile image capture and processing |
US9208536B2 (en) | 2013-09-27 | 2015-12-08 | Kofax, Inc. | Systems and methods for three dimensional geometric reconstruction of captured image data |
US9355312B2 (en) | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US20140316841A1 (en) | 2013-04-23 | 2014-10-23 | Kofax, Inc. | Location-based workflows and services |
US9760788B2 (en) | 2014-10-30 | 2017-09-12 | Kofax, Inc. | Mobile document detection and orientation based on reference object characteristics |
WO2016203282A1 (en) | 2015-06-18 | 2016-12-22 | The Nielsen Company (Us), Llc | Methods and apparatus to capture photographs using mobile devices |
US10242285B2 (en) * | 2015-07-20 | 2019-03-26 | Kofax, Inc. | Iterative recognition-guided thresholding and data extraction |
US10019740B2 (en) | 2015-10-07 | 2018-07-10 | Way2Vat Ltd. | System and methods of an expense management system based upon business document analysis |
US10121088B2 (en) * | 2016-06-03 | 2018-11-06 | Adobe Systems Incorporated | System and method for straightening curved page content |
US10311330B2 (en) | 2016-08-17 | 2019-06-04 | International Business Machines Corporation | Proactive input selection for improved image analysis and/or processing workflows |
US10579741B2 (en) | 2016-08-17 | 2020-03-03 | International Business Machines Corporation | Proactive input selection for improved machine translation |
US10565778B2 (en) | 2017-08-22 | 2020-02-18 | Samsung Electronics Co., Ltd. | Electronic devices for and methods of implementing memory transfers for image warping in an electronic device |
US10803350B2 (en) | 2017-11-30 | 2020-10-13 | Kofax, Inc. | Object detection and image cropping using a multi-detector approach |
US10565443B2 (en) * | 2018-02-16 | 2020-02-18 | Wipro Limited | Method and system for determining structural blocks of a document |
JP6633115B2 (ja) * | 2018-03-27 | 2020-01-22 | 合同会社オフィス・ゼロ | プログラム作成支援システム及びその方法並びにそのプログラム |
US11373400B1 (en) * | 2019-03-18 | 2022-06-28 | Express Scripts Strategic Development, Inc. | Methods and systems for image processing to present data in augmented reality |
US11328524B2 (en) | 2019-07-08 | 2022-05-10 | UiPath Inc. | Systems and methods for automatic data extraction from document images |
KR102256667B1 (ko) * | 2020-03-23 | 2021-05-26 | 주식회사 신한디에스 | 문서 인식 방법 및 그 장치 |
CN113554558A (zh) * | 2020-04-26 | 2021-10-26 | 北京金山数字娱乐科技有限公司 | 一种图像处理的方法和装置 |
CN111783778A (zh) * | 2020-08-18 | 2020-10-16 | 山东旗帜信息有限公司 | 一种扭曲文档图片的校正模型的训练方法及扭曲文档图片的校正方法 |
US10991081B1 (en) * | 2020-12-31 | 2021-04-27 | VoyagerX, Inc. | Book scanning using machine-trained model |
US11030488B1 (en) | 2020-12-31 | 2021-06-08 | VoyagerX, Inc. | Book scanning using machine-trained model |
CN113592735A (zh) * | 2021-07-23 | 2021-11-02 | 作业帮教育科技(北京)有限公司 | 文本页面图像还原方法及系统、电子设备和计算机可读介质 |
CN113672739A (zh) * | 2021-07-28 | 2021-11-19 | 达而观智能(深圳)有限公司 | 一种图像格式财报文档的数据抽取方法 |
CN116740740B (zh) * | 2023-08-11 | 2023-11-21 | 浙江太美医疗科技股份有限公司 | 同行文本判定方法、文档排序方法及其应用 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050062350A (ko) * | 2003-12-19 | 2005-06-23 | 한국전자통신연구원 | 카메라 문서영상의 기하학적 왜곡 보정방법 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW493143B (en) * | 2001-03-02 | 2002-07-01 | Ulead Systems Inc | Correction for perspective distortion image and method for artificial perspective distortion image |
WO2005041123A1 (ja) * | 2003-10-24 | 2005-05-06 | Fujitsu Limited | 画像歪み補正プログラム,画像歪み補正装置並びに画像歪み補正方法 |
US20060210192A1 (en) * | 2005-03-17 | 2006-09-21 | Symagery Microsystems Inc. | Automatic perspective distortion detection and correction for document imaging |
NO20052656D0 (no) * | 2005-06-02 | 2005-06-02 | Lumex As | Geometrisk bildetransformasjon basert pa tekstlinjesoking |
US7330604B2 (en) | 2006-03-02 | 2008-02-12 | Compulink Management Center, Inc. | Model-based dewarping method and apparatus |
US8577118B2 (en) | 2008-01-18 | 2013-11-05 | Mitek Systems | Systems for mobile image capture and remittance processing |
US7953268B2 (en) * | 2008-01-18 | 2011-05-31 | Mitek Systems, Inc. | Methods for mobile image capture and processing of documents |
-
2013
- 2013-09-30 KR KR1020130116902A patent/KR102082301B1/ko active IP Right Grant
-
2014
- 2014-09-29 US US14/499,925 patent/US9305211B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050062350A (ko) * | 2003-12-19 | 2005-06-23 | 한국전자통신연구원 | 카메라 문서영상의 기하학적 왜곡 보정방법 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11893611B2 (en) | 2016-05-25 | 2024-02-06 | Ebay Inc. | Document optical character recognition |
US11223728B2 (en) | 2019-02-19 | 2022-01-11 | Samsung Electronics Co., Ltd | Electronic device for providing various functions through application using a camera and operating method thereof |
US11528370B2 (en) | 2019-02-19 | 2022-12-13 | Samsung Electronics Co., Ltd. | Electronic device for providing various functions through application using a camera and operating method thereof |
US11943399B2 (en) | 2019-02-19 | 2024-03-26 | Samsung Electronics Co., Ltd | Electronic device for providing various functions through application using a camera and operating method thereof |
KR20210061070A (ko) * | 2019-11-19 | 2021-05-27 | 네이버 주식회사 | 문서 이미지의 변환 장치 및 방법 |
WO2022119128A1 (ko) * | 2020-12-03 | 2022-06-09 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20150093033A1 (en) | 2015-04-02 |
KR102082301B1 (ko) | 2020-02-27 |
US9305211B2 (en) | 2016-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102082301B1 (ko) | 카메라로 촬영한 문서 영상을 스캔 문서 영상으로 변환하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체 | |
US8457403B2 (en) | Method of detecting and correcting digital images of books in the book spine area | |
US9946954B2 (en) | Determining distance between an object and a capture device based on captured image data | |
US10289924B2 (en) | System and method for scanned document correction | |
US20180255287A1 (en) | Generating hi-res dewarped book images | |
KR101333871B1 (ko) | 멀티-카메라 교정을 위한 방법 및 장치 | |
US8811751B1 (en) | Method and system for correcting projective distortions with elimination steps on multiple levels | |
US8897600B1 (en) | Method and system for determining vanishing point candidates for projective correction | |
BR102012033723B1 (pt) | método para restauração de imagens de códigos de barras desfocados | |
US8913836B1 (en) | Method and system for correcting projective distortions using eigenpoints | |
US10586099B2 (en) | Information processing apparatus for tracking processing | |
JP5656768B2 (ja) | 画像特徴量抽出装置およびそのプログラム | |
US10643095B2 (en) | Information processing apparatus, program, and information processing method | |
JP5541679B2 (ja) | 画像処理装置及び方法、並びに、プログラム | |
CA2787159C (en) | Correcting page curl in scanned books | |
US10999513B2 (en) | Information processing apparatus having camera function, display control method thereof, and storage medium | |
US10373329B2 (en) | Information processing apparatus, information processing method and storage medium for determining an image to be subjected to a character recognition processing | |
US20220198814A1 (en) | Image dewarping with curved document boundaries | |
US20210281742A1 (en) | Document detections from video images | |
Kim et al. | Dewarping book page spreads captured with a mobile phone camera | |
CN116152474A (zh) | 扫描数据的处理方法、装置、设备及介质 | |
JP5563390B2 (ja) | 画像処理装置およびその制御方法、及びプログラム | |
JP4812743B2 (ja) | 顔認識装置、顔認識方法、顔認識プログラムおよびそのプログラムを記録した記録媒体 | |
US9521270B1 (en) | Changing in real-time the perspective of objects captured in images | |
JP2018017611A (ja) | 画像処理装置、画像処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |